Se desarrollan sistemas que procesan y entienden la lengua hablada

Un grupo investigador del departamento de Ingeniería de Sistemas y Automática de la Escuela Universitaria Politécnica y de la Facultad de Informática de Donostia-San Sebastián (UPV/EHU), dirigido por la profesora Miren Karmele Lopez de Ipiña, desarrolla sistemas que procesan y entienden la lengua hablada, y obtienen automáticamente información de las radios y televisiones vascas especialmente.

UPV/EHU

10/3/2008 13:20 CEST

Se desarrollan sistemas que procesan y entienden la lengua hablada

Grupo investigador UPV/EHU. De izquierda a derecha, Ixabel Ariztimuño, Nora Barroso, Aitzol Ezeiza, Miren Karmele Lopez de Ipiña y Nerea Ezeiza. (Fotografía: UPV/EHU)

Realizar una búsqueda en la red de documentos escritos es una tarea fácil. Para ello, simplemente hay que introducir la palabra que se quiere encontrar en el buscador. Sin embargo, esas búsquedas no recogen lo hablado o dicho en los archivos de audio, a no ser que dichos archivos lleven una explicación escrita de lo hablado.

Reconocer el lenguaje del habla y convertirlo en texto no es tarea fácil. Las palabras no se distinguen adecuadamente unas de otras, hay que tener en cuenta la entonación, y, además, el ruido de las señales físicas también es un obstáculo. A raíz de todo ello, existe un gran mercado de sistemas que procesan y entienden la lengua hablada; es decir, sistemas que convierten el habla en texto escrito. Dichos sistemas se integran, en principio, en servicios telefónicos, tales como cita previa, solicitud de productos, reservas de espectáculos, etc. De todas formas, también existen otros dispositivos, por ejemplo, el dictado automático, es decir, sistemas que convierten al momento lo oral en escrito. En este último estudio se centra el personal investigador del departamento de Ingeniería de Sistemas y Automática de la UPV/EHU.

Para el procesamiento del habla, el sistema debe estar muy bien adiestrado. Esto es, el sistema tiene que recibir un entrenamiento de algún tipo, conocido como máquina-estudio. Para ello, en primer lugar, se necesitan ficheros o archivos audio de televisión o radio. Y por otro lado, es necesario tener ciertos textos de referencia, de lo dicho en esos medios de comunicación. El grupo de investigación de la UPV/EHU, por ejemplo, utiliza muy a menudo ficheros de los programas Gaur Egun y Teleberri para adiestrar al sistema. No es obligatorio conocer lo que se dice palabra por palabra; el sistema tiene que ser capaz de realizar un resumen de lo escuchado. Al final, el sistema intenta comprender la relación entre las palabras y el sonido.

Una vez finalizado el proceso de aprendizaje, el sistema deberá ser capaz de entender lo escuchado en cualquier programa de Gaur Egun o Teleberri. Aunque el proceso de aprendizaje es muy lento, una vez que el sistema interioriza las reglas o la información, es decir, el material adecuado de referencia, el resultado se obtiene rápidamente. En este caso, texto escrito a partir del hablado.

Lo pequeño grande

En realidad, la mayoría de las aplicaciones de este tipo que existen en el mercado tienen como objetivo las lenguas ‘grandes’; el inglés, sobre todo. En cualquier caso, el grupo investigador de la Escuela Universitaria Politécnica de Donostia-San Sebastián, junto con el grupo IXA, GTTS y el grupo de Inteligencia Computacional de la UPV/EHU trabajan con el euskera. La principal diferencia entre lenguas ‘grandes’ y ‘pequeñas’ reside en el número de datos de referencia. Los sistemas de ese tipo para la lengua inglesa, tienen una cantidad de datos impresionante; el material de referencia del euskera, sin embargo, es bastante menor. A raíz de todo ello, el personal investigador trata de desarrollar nuevas técnicas para aprovechar mejor y con mayor precisión esos datos mínimos.

Para obtener mayor precisión, se utilizan ecuaciones matemáticas. Se trata de localizar las características más importantes que faciliten la información adecuada de los ficheros de audio. No es una tarea fácil hacer dicha selección; es decir, distinguir la información apropiada de la rechazable. Normalmente, el personal investigador de la UPV/EHU tiene en cuenta la frecuencia y la entonación para clasificar toda la información recopilada (por ejemplo, para diferenciar una pregunta de una oración enunciativa, etc).

Estos sistemas dependen mucho del idioma, y cada idioma tiene su propio sistema. El grupo investigador de la UPV/EHU no sólo trabaja con el euskera, sino que también utiliza el castellano y el francés. Cuando estudian los programas Teleberri e Infozazpi, entre otros, tienen dos objetivos: por un lado, comprender el castellano y el francés — a la vez que el euskera—, y, por otro lado, detectar las semejanzas de dichos sistemas entre el euskera y los otros dos idiomas, para adiestrar aún más los sistemas del euskera.

En relación con eso, hoy en día, el grupo investigador de la UPV/EHU está realizando pruebas para el desarrollo de un sistema válido para más de un idioma. Ese es precisamente su reto en vista al futuro: desarrollar un sistema capaz de comprender el euskera, el castellano y el francés.

Fuente: UPV/EHU

Derechos: Creative Commons

Claves