Aprende de forma autónoma sin información previa alguna

Un modelo computacional desarrollado en la FIUPM gana la competición internacional RL 2008

Un sistema computacional capaz de aprender de manera análoga a como lo hacen los animales, y que ha sido desarrollado por investigadores de la Facultad de Informática de la Universidad Politécnica de Madrid (FIUPM), ha ganado la II Competición Internacional de Aprendizaje por Refuerzo celebrada este mes de julio en Helsinki.

UPM

Investigadores del grupo de Percepción Computacional y Robótica (PCR) de la Facultad de Informática de la Universidad Politécnica de Madrid (FIUPM), desarrollan sistemas informáticos y robots que aprenden de forma autónoma y de manera análoga a como aprenden los animales, uno de los cuales ha ganado la II Competición Internacional de Aprendizaje por Refuerzo celebrada este mes de julio en Helsinki.

Una de las áreas de investigación más relevantes sobre aprendizaje y modificación de conducta, tanto en animales como en humanos y ahora también en Inteligencia Artificial y Robótica, es la llamada Teoría del Aprendizaje por Refuerzo (Reinforcement Learning).

Esta teoría está basada en las investigaciones iniciadas por Thorndike sobre el condicionamiento clásico y luego generalizadas por Skinner con la introducción del condicionamiento instrumental. El germen de esta teoría es la llamada “Ley del Efecto” formulada por Thorndike, que afirma que cuando una conducta va seguida de un estímulo placentero, esta conducta tenderá a reforzarse y por lo tanto aumentará la probabilidad de manifestarse en el futuro, mientras que si tal conducta va seguida por algún estímulo aversivo, ésta tenderá a disminuir. De aquí que también se denomine aprendizaje mediante premio y castigo.

Desde hace varios años, el grupo de investigación viene trabajando sobre este tipo de aprendizaje para aplicarlo en robots autónomos que puedan aprender de forma directa mediante la sola interacción con su entorno y sin ningún tipo de instrucción o programación previa por parte del diseñador del robot.

Durante los 2 últimos años los investigadores Javier de Lope, José Antonio Martín H. y Darío Maravall han producido gran cantidad de publicaciones científicas en esta área hasta conseguir un modelo computacional robusto llamado kNN-TD.

Dicho modelo (kNN-TD) ha sido finalmente puesto a prueba rigurosa en la Segunda Competición Internacional de Aprendizaje por Refuerzo llevada a cabo en el marco del 25º Congreso Internacional de Aprendizaje en Máquinas (ICML 2008) celebrado en Helsinki este mes de julio y organizada por prestigiosos investigadores de diversas universidades de todo el mundo.

En esta competición el modelo de aprendizaje propuesto (kNN-TD) por el grupo de la FIUPM y desarrollado por el investigador José Antonio Martín H. como parte de sus tesis doctoral, obtuvo el primer lugar en el evento PolyAthlon (uno de los 6 dominios de aprendizaje propuestos).

El kNN-TD se vio enfrentado a la tarea de aprender de forma autónoma en un conjunto de 14 problemas distintos sin ningún tipo de información previa sobre el tipo de problema o entorno donde se desenvolvía el sistema. Estas tareas incluyeron desde juegos de supervivencia simulados entre un gato y un ratón (Cat and Mouse), hasta problemas prácticos de control óptimo como el robot acróbata (Acrobot), todo ello bajo condiciones adversas y realistas como altas cantidades de ruido en la percepción del ambiente y ruido en la propia conducta del sistema.

Los resultados de la competición se mantuvieron en estricto secreto hasta el día de la entrega formal de premios donde se realizo la presentación formal del método en una exposición oral en el edificio principal del campus centro de la Universidad de Helsinki el día 9 de julio de 2008.

De esta forma, el grupo de investigación se consolida como una referencia internacional de primer orden en el campo del Aprendizaje por Refuerzo debido a sus publicaciones, a la divulgación de herramientas de experimentación en la web, que se ha posicionado como sitio de referencia sobre esta materia, y al mencionado reciente logro.

Fuente: UPM

Derechos: Creative Commons