Búsqueda avanzada

Tecnologías: Tecnología de los ordenadores

Aprende de forma autónoma sin información previa alguna

Un modelo computacional desarrollado en la FIUPM gana la competición internacional RL 2008

Un sistema computacional capaz de aprender de manera análoga a como lo hacen los animales, y que ha sido desarrollado por investigadores de la Facultad de Informática de la Universidad Politécnica de Madrid (FIUPM), ha ganado la II Competición Internacional de Aprendizaje por Refuerzo celebrada este mes de julio en Helsinki.

UPM | 28 julio 2008 12:15

Investigadores del grupo de Percepción Computacional y Robótica (PCR) de la Facultad de Informática de la Universidad Politécnica de Madrid (FIUPM), desarrollan sistemas informáticos y robots que aprenden de forma autónoma y de manera análoga a como aprenden los animales, uno de los cuales ha ganado la II Competición Internacional de Aprendizaje por Refuerzo celebrada este mes de julio en Helsinki.

Una de las áreas de investigación más relevantes sobre aprendizaje y modificación de conducta, tanto en animales como en humanos y ahora también en Inteligencia Artificial y Robótica, es la llamada Teoría del Aprendizaje por Refuerzo (Reinforcement Learning).

Esta teoría está basada en las investigaciones iniciadas por Thorndike sobre el condicionamiento clásico y luego generalizadas por Skinner con la introducción del condicionamiento instrumental. El germen de esta teoría es la llamada “Ley del Efecto” formulada por Thorndike, que afirma que cuando una conducta va seguida de un estímulo placentero, esta conducta tenderá a reforzarse y por lo tanto aumentará la probabilidad de manifestarse en el futuro, mientras que si tal conducta va seguida por algún estímulo aversivo, ésta tenderá a disminuir. De aquí que también se denomine aprendizaje mediante premio y castigo.

Desde hace varios años, el grupo de investigación viene trabajando sobre este tipo de aprendizaje para aplicarlo en robots autónomos que puedan aprender de forma directa mediante la sola interacción con su entorno y sin ningún tipo de instrucción o programación previa por parte del diseñador del robot.

Durante los 2 últimos años los investigadores Javier de Lope, José Antonio Martín H. y Darío Maravall han producido gran cantidad de publicaciones científicas en esta área hasta conseguir un modelo computacional robusto llamado kNN-TD.

Dicho modelo (kNN-TD) ha sido finalmente puesto a prueba rigurosa en la Segunda Competición Internacional de Aprendizaje por Refuerzo llevada a cabo en el marco del 25º Congreso Internacional de Aprendizaje en Máquinas (ICML 2008) celebrado en Helsinki este mes de julio y organizada por prestigiosos investigadores de diversas universidades de todo el mundo.

En esta competición el modelo de aprendizaje propuesto (kNN-TD) por el grupo de la FIUPM y desarrollado por el investigador José Antonio Martín H. como parte de sus tesis doctoral, obtuvo el primer lugar en el evento PolyAthlon (uno de los 6 dominios de aprendizaje propuestos).

El kNN-TD se vio enfrentado a la tarea de aprender de forma autónoma en un conjunto de 14 problemas distintos sin ningún tipo de información previa sobre el tipo de problema o entorno donde se desenvolvía el sistema. Estas tareas incluyeron desde juegos de supervivencia simulados entre un gato y un ratón (Cat and Mouse), hasta problemas prácticos de control óptimo como el robot acróbata (Acrobot), todo ello bajo condiciones adversas y realistas como altas cantidades de ruido en la percepción del ambiente y ruido en la propia conducta del sistema.

Los resultados de la competición se mantuvieron en estricto secreto hasta el día de la entrega formal de premios donde se realizo la presentación formal del método en una exposición oral en el edificio principal del campus centro de la Universidad de Helsinki el día 9 de julio de 2008.

De esta forma, el grupo de investigación se consolida como una referencia internacional de primer orden en el campo del Aprendizaje por Refuerzo debido a sus publicaciones, a la divulgación de herramientas de experimentación en la web, que se ha posicionado como sitio de referencia sobre esta materia, y al mencionado reciente logro.

Localización: Comunidad de Madrid
Fuente: UPM
  • Diggit
  • Meneame
  • Delicious
  • Facebook
  • Twitter
  • Arroba

Comentarios (0)

ÚLTIMAS NOTICIAS

La sobre expresión de una proteína, responsable del daño neuronal en personas con Síndrome de Down

El estudio coordinado por el Centro de Regulación Genómica (CRG) reprodujo en un ratón transgénico los mismos patrones morfológicos y funcionales en las conexiones neuronales de las personas con síndrome de Down. Regulando la actividad de esta proteína se producían un crecimiento neuronal mu...

Analizan el apoyo social a la gestión de especies invasoras en Doñana

Analizan el poyo social a la gestión de especies invasoras en Doñana

Un artículo publicado en la revista Environmental Management por investigadores de la Universidad Autónoma de Madrid (UAM) analiza los factores que influyen en la disposición de los ciudadanos a la hora de pagar por la erradicación y prevención de invasiones biológicas en el Espacio Natural Doñana.

Revelan que el famoso escritor James Joyce no padecía miopía sino hipermetropía

James Joyce fotografiado por Alex Ehrenzweig en 1915. Imagen: Wikipedia

El análisis de las gafas que usaba James Joyce a través de un centenar de fotografías junto al hallazgo de una prescripción de lentes de 1932 tira por tierra el mito creado por los biógrafos. El déficit de visión del autor podría explicar los errores ortográficos, neologismos y ausencia de signos...

Diseñan mapas de riesgo y vulnerabilidad de edificios en conjuntos históricos

La investigadora de la Universidad Pablo de Olavide Pilar Ortiz, coordinadora del proyecto

Investigadores de las Universidades Pablo de Olavide e Hispalense, junto con las empresas Research Aprorca y Ecomímesis acometen un proyecto dirigido a la elaboración de mapas de riesgos y perímetros de vulnerabilidad de los centros históricos de Andalucía, para establecer medidas de prevención y...

Descifran los componentes pictóricos de dos cuevas asturianas del Paleolítico

Motivo pictórico de la cueva de El Buxu. Imagen: Antonio Hernanz.

Técnicas químicas al servicio del arte. Investigadores de la UNED han analizado pinturas del Paleolítico en las cuevas de Tito Bustillo y El Buxu (Asturias) para averiguar su composición. El estudio revela que su principal componente es el mineral hematites y que el grano de los pigmentos es tan...