Un coro de voces

Un coro de voces

Escuchar instrucciones, en vez de leer de una lista, una etiqueta o la pantalla de un terminal portátil, permite al usuario trabajar sin perder de vista el objeto de su tarea: sus ojos están libres. La respuesta se comunica al sistema a través del micrófono: las manos no tienen que teclearla. Es el momento de los sistemas dirigidos por voz.
Tecnología y organización del trabajo son los dos ingredientes básicos de la eficiencia en el movimiento de mercancías en almacenes, donde en los últimos años hemos conocido muchas innovaciones. El problema fundamental sigue siendo el mismo: la interacción entre el hombre (que mueve la mercancía o maneja los equipos) y el sistema de información.
Estamos hablando de aquel mecanismo de diálogo que en jerga informática se llama input y output. En dicho frente siempre se han concentrado las investigaciones tecnológicas y aplicativas. A dicho tema se refieren el código de barras y los terminales portátiles montados en carros y conectados por radio al sistema, en un intento continuo por llevar la información (recogida o facilitada al operador) “cerca de la acción”.
Los investigadores llevan mucho tiempo estudiando la tecnología de la síntesis vocal y el esfuerzo ha producido importantes soluciones en diferentes campos, desde la medicina, hasta la vida diaria. Con esta tecnología, la interacción se produce utilizando nuestro sistema básico de comunicación – la voz – sin tener que recurrir a la escritura o las teclas para el input, y a la lectura de un visor.
Es evidente que dicha modalidad es interesante en las operaciones de movimiento de mercancías y concretamente en las tareas de picking de mercadería, al dejar al operador las manos libres para mover las mismas. Esta tecnología está disponible desde hace algunos años, pero solamente ahora está realmente madura y se ofrece a costes compatibles con la cuenta de pérdidas y ganancias.
Una novedad muy interesante, que intentamos descubrir profundizando en el estado del arte, observando de cerca los equipos, detallando las arquitecturas informáticas que le dan soporte así como las condiciones en las que dicha tecnología puede arrojar su máximo beneficio. Sin olvidar a los principales actores de este nuevo mercado, algunas realizaciones significativas y el fermento del “coro”.

El reconocimiento de la voz

El reconocimiento de la voz, es decir, la conversión de la voz en un texto, de manera eficaz, es básico para el éxito de un sistema industrial dirigido por la voz. El interrogante que cabe plantearse para medir la precisión de un sistema de reconocimiento vocal es: “¿El sistema transcribe correctamente lo que oye?”.
Poner a un ordenador en condiciones de reconocer la voz como un ser humano es una empresa que aún no se ha logrado; sin embargo, si se quiere que un sistema alcance un alto nivel de precisión en el reconocimiento vocal, cabe simplificar al máximo el problema. Lo cual significa, por ejemplo, limitar el reconocimiento al área de la aplicación específica para el que se diseña el sistema, tomando en cuenta que el propio reconocimiento ha de producirse en tiempos compatibles con la aplicación.
Las palabras que un sistema de reconocimiento vocal está destinado a comprender son su vocabulario. Los seres humanos tienen un vocabulario muy amplio, pueden comprender miles de palabras. Si embargo, la incorporación de un sistema de reconocimiento de un vocabulario amplio a un dispositivo móvil encuentra una serie de obstáculos difíciles de salvar, debido a la limitada capacidad de memoria y la modesta capacidad de procesamiento del dispositivo. Afortunadamente, las aplicaciones industriales que contemplan la utilización del reconocimiento vocal precisan de un vocabulario bastante reducido: una típica aplicación de almacén necesita un vocabulario de menos de cien palabras, mientras que una tarea de control industrial puede llegar a utilizar como mucho unas pocas palabras.
Cabe realizar otra reflexión: las personas comprenden frases compuestas por palabras, sin pausas significativas entre las mismas. Analizando la evolución de los sistemas de reconocimiento vocal, se descubre que los primeros avances al respecto estaban basados en la incorporación de pausas sensibles entre una palabra y otra, situación que hoy se mantiene tan sólo para utilizaciones de muy bajo coste (por ejemplo, en algunos juguetes).
En aplicaciones industriales, este tipo de solución no es aceptable: la incorporación de pausas ralentiza el trabajo y produce frustración. Un sistema de reconocimiento vocal industrial ha de poder reconocer palabras expresadas con continuidad (por ejemplo una secuencia de números), si bien ello supone un desarrollo más complejo de los algoritmos de descodificación.
Otro aspecto que diferencia la modalidad con la que se lleva a cabo el reconocimiento de la voz es la dependencia o no de la persona que, al hablar, utiliza el equipo.
Los sistemas que dependen del hablante (“speaker dependent”) optimizan el reconocimiento a través de una breve capacitación del usuario y la creación del perfil vocal del mismo: lo cual se almacena en el terminal y en el servidor de aplicación para poderlo propagar a otros dispositivos. Los sistemas “speaker independent” funcionan gracias a vocabularios y modelos estadísticos del lenguaje.
Para la síntesis vocal, o, lo que es lo mismo, la conversión del texto digital en un sonido para facilitar el input al usuario, el sistema normalmente utilizado se identifica por la sigla TTS (Text To Speech). Se trata de una solución no de alta calidad (“computer voice”), pero sin lugar a dudas más fácil de utilizar y más flexible en comparación con la voz digitalizada o construida sobre la base de palabras o frases grabadas previamente. Cabe destacar que el ser humano se ajusta con facilidad a los nuevos sonidos o a los nuevos acentos; además, las aplicaciones industriales se componen de frases breves que se repiten muchas veces durante la jornada y, por consiguiente, fáciles de aprender.

El Picking, la “aplicación asesina” de los sistemas vocales

El Picking es la tarea de almacén más crítica: se lleva a cabo manualmente, tiene un tiempo de ejecución bastante largo, pero con una planificación totalmente rígida, al estar vinculada al sistema de transporte de la mercancía al destinatario. Además, la calidad de la tarea es muy importante: un error de picking produce contratiempos, retrasos, falta de producto en el punto de venta y, por consiguiente, ventas fallidas y desapego de la clientela. En cuanto a los recursos, por lo general los que están destinados al picking representan la gran mayoría de la plantilla de un almacén.
Dichas reflexionen han llevado las empresas a buscar y experimentar diferentes soluciones para optimizar la tarea de picking, tanto en términos de calidad como de productividad. La utilización de terminales móviles, si por un lado permite la certificación del producto tomado mediante la lectura del código de barras, por otro introduce un equipo que el operador ha de manejar y consultar: desafortunadamente, no siempre la aplicación está lo suficientemente bien diseñada como para poderse aprender rápidamente por parte de una plantilla que se alterna con gran frecuencia. Otro problema que se plantea es la necesidad de tener que utilizar las manos para llevar a cabo dos tareas diferentes, tanto la consulta del terminal como el picking de la mercancía, con la necesidad de dirigir la atención (y la vista) hacia objetivos diferentes. La solución que contempla la utilización de ordenadores “que pueden llevarse puestos” (en uno de los dos brazos) permite trabajar con las manos casi completamente libres, sin embargo produce aún más cansancio en una tarea que por su propia naturaleza ya es pesada.
Al analizar la tarea de Picking y al desglosarla en los movimientos elementales que la componen, podemos observar que el operador:
– lee la lista de picking (o la pantalla del terminal)
– se desplaza junto al medio que transporta la mercancía tomada
– comprueba que el producto que está tomando es el correcto (si utiliza el terminal, lo saca y lo vuelve a colocar en su funda)
– toma el producto según la cantidad indicada
– puntea la lista o confirma en el terminal.
Se puede calcular que el verdadero picking “físico” representa tan sólo un veinte por ciento de todo el tiempo dedicado a la tarea. Dicha consideración ha llevado a valorar la posibilidad de optimizar la tarea de picking eliminando o acortando algunas de sus fases, utilizando un vehículo de información muy sencillo: la voz.
Escuchar unas instrucciones, en lugar de leer de una lista, una etiqueta o la pantalla de un terminal portátil, permite trabajar sin abandonar con los ojos el objeto de la tarea. Lo mismo se puede decir también en el otro sentido: es más sencillo y “directo” facilitar una respuesta vocal en lugar de teclear en un teclado. Además, no hay que olvidar que la distracción puede producir errores operativos y aumentar los accidentes laborales.
Echando un vistazo a un esquema general de la tarea de picking, se puede entender mejor cómo la utilización de la voz es sencilla y cómo pueden llevarse a cabo unas funcionalidades concretas. Básicamente, el detalle de picking se traduce en la identificación de la ubicación de donde ha de tomarse la mercancía y del número de bultos o piezas por tomar. El sistema indica al operador la ubicación de picking, y la certificación que la ubicación es la correcta la lleva a cabo el propio operador, leyendo unos números presentes cerca de la etiqueta de la ubicación: se llaman dígitos de control y son un número al azar que el sistema conoce. Los dígitos de control tienen un tamaño relativamente modesto a propósito, es decir, son más pequeños que los caracteres utilizados para identificar la ubicación, para garantizar que el operador lleve a cabo el picking desde la ubicación correcta. El mismo resultado puede lograrse mediante la lectura de los dos últimos dígitos del código de barras del producto o del cartón por tomar.
El problema de las excepciones se resuelve con facilidad utilizando unas palabras cortas que llevan a cabo la misma tarea que una tecla función: “falta” (picking no realizado), “basta” (los contenedores – pallets o rollteiners – están llenos), “stop” (mi turno ha terminado) etcétera, sin olvidar “repetir” para que el sistema le recuerde la última información que le ha comunicado.

Los agentes del mercado de los sistemas vocales, las experiencias y las realizaciones

La evolución de los sistemas vocales ha sido todo menos rápido. Algunas empresas no han tenido recursos suficientes para poder aguardar el éxito que, antes o después, iba a llegar, razón por la cual hoy en el mercado hay principalmente una empresa líder, Vocollect, y numerosos socios de las mismas. Sin embargo, en los últimos años han surgido otras empresas, quizá de tamaño modesto, que están dejando su huella en el sector. Además, algunos agentes históricos de la identificación automática no han querido desaprovechar esta nueva oportunidad, produciendo, a su vez, interpretaciones diversificadas de dichos sistemas.
Vocollect es líder a nivel mundial en la producción y comercialización de sistemas con tecnología vocal. Compañía dedicada al desarrollo y la implementación de soluciones vocales fiables para el sector industrial desde su fundación en 1987, hoy hace alarde de cientos de instalaciones en todo el mundo, para la gestión de aplicaciones críticas en los centros de distribución, desde el picking hasta la recepción, desde la reposición hasta el control de calidad.
Con el objeto de permitir una incorporación rápida y fácil a los sistemas de gestión de almacén (WMS, Warehouse Management System) y a los procesos empresariales (ERP), Vocollect ofrece dos posibilidades de incorporación de sus sistemas vocales Talkman. La primera solución es una interfaz estándar y directa desarrollada con los sistemas WMS más populares. La segunda es el middleware VoiceLink, diseñado por Vocollect para una incorporación rápida y sencilla a cualquier tipo de sistema. Ambas posibilidades aseguran visibilidad en tiempo real de los datos producidos por la aplicación vocal: la tarea de cada operador y el flujo de información correspondiente están disponibles para una reconciliación, actualización y gestión rápidas de las excepciones.
Los terminales Talkman están dotados de BlueStreak, software para el reconocimiento vocal producido por Vocollect y diseñado especificadamente para utilizarse en medios industriales ruidosos. Basado en el modelo de Markov, permite comparar la modalidad de comunicación de cada operador con una serie de esquemas vocales específicos, seleccionando el más parecido a la modalidad de comunicación del operador. BlueStreak acepta la comunicación en serie de números largos y pronunciados rápidamente, así como la comunicación de palabras individuales, mientras filtra todos los ruidos de fondo e intermitentes, con precisión y calidad.