Significado de toma de decisiones secuenciales en almacenes automatizados

¿Como los algoritmos inteligentes de GeekPlus asignan varias tareas de manejo de estanterías a múltiples robots?  ¿Y cómo calculan la relación entre pedido, estación de trabajo e inventario?

Antes, estos problemas solo consideraban la situación actual, en base a reglas establecidas manualmente.

Pero, como el dr. Wenzhe Tan, vice-presidente de Algoritmos en GeekPlus y director del centro de investigación de Inteligencia Artificial de GeekPlus sabe, los ingenieros de Geek son capaces de mucho más.

Durante la Conferencia Global de Tecnología de Logística 2022, un evento anual de tecnología de logística en Asia, el Dr. Tan pronunció un discurso de apertura en el Foro de Aplicación de Logística de Investigación de Operaciones, donde hable sobre la aplicación de la investigación de operaciones en logística inteligente. También compartió su experiencia en la aplicación de estas investigaciones para empresas tecnológicas con expertos y académicos de Alibaba, Huawei y las mejores universidades en una mesa redonda.

La conferencia es organizada por la CFLP, una importante federación de Logística y Compras en Asia. Como punto de referencia para la innovación tecnológica de vanguardia en la industria, la conferencia reúne a líderes académicos y expertos mundiales para analizar los últimos logros tecnológicos y la futura dirección de I+D.

En el foro de Investigación de Operaciones, Warren B. Powell, Profesor Emérito de la Universidad de Princeton, y el Profesor Zhao Lei del Departamento de Ingeniería Industrial de la Universidad de Tsinghua destacaron que los Modelos de Decisión Secuencial en Investigación de Operaciones se han convertido en una herramienta eficaz de modelado y análisis en la gestión logística actual. El Dr. Tan también enfatizó la aplicación de modelos de decisiones secuenciales en logística inteligente robótica y la forma basada en datos para mejorar la inteligencia de la toma de decisiones del sistema, lo que ayuda de manera efectiva a los clientes a reducir costos y aumentar la eficiencia.

Toma de decisiones secuencial de GeekPlus

El almacén inteligente basado en robots se puede configurar como un modelo de decisión secuencial típico, donde el sistema puede recopilar información como pedidos, estaciones de trabajo, inventario, robots, en cada momento, y tomar una serie de decisiones como despacho , asignación de tareas, planificación de rutas, programación, etc. 

Este proceso se repite continuamente para completar la función del sistema de almacenamiento inteligente . Cada vez que el algoritmo se enfrenta a una gran cantidad de información y necesita tomar decisiones complejas que involucran varios sistemas, GeekPlus divide el sistema en varios etapas clave para abordarlas paso a paso.

La asignación de tareas y el despacho son dos de los problemas más típicos. La asignación de tareas se refiere al problema de distribución entre la asignación de tareas de manejo de estantes a los robots, con el objetivo de establecer la relación de mapeo entre múltiples tareas y múltiples robots, lo cual es un clásico problema den la optimización de operaciones.

Diagrama esquemático de la asignación de tareas

El segundo paso es el problema del despacho al que se enfrenta el almacén inteligente, que tiene como objetivo establecer la relación de coincidencia de decisiones entre pedido-estación de trabajo-inventario. Estos dos problemas típicos de estos sitios a menudo solo consideraban la situación en ese momento y se basaban en reglas establecidas manualmente. El Dr. Wenzhe Tan se preguntó, si el impacto de la decisión en el proceso posterior era considerada, ¿podría haber un mejor resultado en esa decisión? En el informe, el Dr. Wenzhe Tan presentó la serie de exploración de la toma de decisiones secuencial de asignación de tareas por parte de GeekPlus.

Asignación de tareas

Exploración 1: Asignación de tareas basadas en datos históricos

La asignación de tareas es la base para el funcionamiento del almacén no automatizado de GeekPlus. Y las decisiones de asignación de tareas buenas o malas determinan directamente el tiempo de finalización del pedido, la utilización del robot y otros indicadores de eficiencia en el sitio. El algoritmo generalmente considera múltiples factores, como el tráfico del sitio, la prioridad de los pedidos y la actividad de ese almacén para la asignación. En la práctica de la implementación continua, GeekPlus también sigue pensando en un problema: el almacén se enfrenta a diferentes incertidumbres en todo momento, ¿debe ser diferente el valor de la tarea en diferentes almacenes, diferentes situaciones en las estaciones de trabajo e incluso diferentes velocidades de picking?

Uso de la ecuación de Bellman para modelar el problema de asignación de tareas de almacén inteligente

A través de complejos escenarios y una continua invocación técnica, GeekPlus, propuso un modelo inteligente de asignación de tareas impulsado por datos. El algoritmo primero recolecta una gran cantidad de datos históricos de diferentes almacenes, diferentes momentos y diferentes escenarios y de manera retrospectiva analiza la situación en ese momento para generar la función de valor esperado. A su vez, durante la ejecución, el algoritmo calculará el valor inmediato del momento actual y sintetizará el valor esperado generado por la función de valor esperado. Así, el escenario que genere el mayor valor de recompensa y máxima eficiencia del sistema sera el adoptado e implementado. Todo en tiempo real.

Los datos de la ejecución se acumularán en la base de datos histórica, la función de valor de entrenamiento se actualizará, formando una optimización de algoritmo de circuito cerrado. Los datos no requieren personal de implementación dedicado a un almacén específico para reglas preestablecidas, lo que reduce significativamente el ciclo de implementación del proyecto.

Los nuevos valores integrados impactan el estado actual y las expectativas. Lo que ayuda a percibir el estado de las tareas y las expectativa del almacén en diferentes momentos de manera mucho mejor, así como también logra una mejora del mas de 15% de eficiencia bajo las mismas condiciones en un escenario de prueba.

Exploración 2: Algoritmo de asignación de tareas basado en funciones de valor adaptable

El éxito de la Exploración 1 trajo consigo una mejora considerable de eficiencia y al mismo tiempo provoco una mayor reflexión en GeekPlus: ¿Puede el valor de una función tomar en cuenta la información ambiental, como el orden y densidad del robot y cambiar de forma adaptable con la operación del sistema?

Para responder estas preguntas, GeekPlus propuso un nuevo algoritmo de asignación de tareas basado en funciones de valor adaptable. Este algoritmo considera el impacto de la planificación de la ruta en el proceso de asignación de tareas, usando el método de aprendizaje de refuerzo online (ORL, por sus siglas en ingles) para extraer las características de la demanda de pedidos y ajustar de manera adaptable la estrategia de asignación de tareas para detectar con precisión los cuellos de botella de eficiencia, haciendo el proceso de optimización mas preciso y en tiempo real, mejorando así la eficiencia operativa del AMR.

El proceso completo del algoritmo esta dividido en 4 pasos:recopilación de información, entrenamiento del modelo, selección de tareas y planificación de rutas.

Primero, el algoritmo recolecta la información espacio temporal de los pickeadores, los AMR y las estanterías (por ejemplo, tiempo de picking de los trabajadores, tiempo estimado de completación de las tareas, información de la ubicación de los AMR, etc.)

Luego, después de la recolección de datos, el modulo de planificación adaptable modela la información espacio-temporal basada en el modelo de proceso de decisión de Markov (MDP) y entrena la función de valor utilizando el método Q-Learning en el aprendizaje por refuerzo.

Después de eso, el algoritmo selecciona las tareas adecuadas para asignar al AMR en función de la función de valor.

Y finalmente, planifica la ruta para ese AMR en función del esquema de selección.

Diagrama de flujo del algoritmo completo

El modelo de decisión secuencial integra el estado de trabajo de los pickeadores y las estanterías. Y este método de modelado permite que la inteligencia de aprendizaje de refuerzo (Agente) perciba mejor los cuellos de botella de eficiencia en todo el proceso, desde el manejo hasta el picking. Además, el enfoque de aprendizaje en línea se utiliza para actualizar la función de valor de estado-acción de manera oportuna, lo que mejora aún más la capacidad de adaptación del algoritmo.

GeekPlus siempre innovando

Desde el inicio, GeekPlus ha estado explorando de manera activa innovar en el campo de los algoritmos para asignación de tareas, lo que ha traído más del 20% de mejora en el campo. GeekPlus continuara haciendo lo que mejor sabe hacer: continuar optimizando y mejorando para potenciar mejor la logística inteligente.

Fuente: https://blog.geekplus.com/en/robotics-blog/algorithm/geek-application-of-operations-research-in-intelligent-logistics

Mucho mas de nuestros productos en Boreal TechnologiesVisite también nuestro canal de Youtube