Basado en palabras universales

Nuevo método para construir ontologías multilingües

Un nuevo método para construir ontologías multilingües que puede ser aplicado a la Web semántica ha sido desarrollado por investigadores de la Facultad de Informática de la Universidad Politécnica de Madrid. El método representa la información de una forma independiente de la lengua y es por tanto aplicable a los sistemas multilingües.

Foto: David Arango.

UPM

Investigadores del Grupo de Validación y Aplicaciones Industriales de la Facultad de Informática de la Universidad Politécnica de Madrid (FIUPM) han desarrollado un nuevo método para construir ontologías multilingües capaz de ser aplicado a la Web semántica.

Una ontología es un conjunto estructurado de términos y conceptos que fundamentan el sentido de un área temática. Se utiliza especialmente en Inteligencia Artificial y sistemas de representación del conocimiento. En la actualidad, investigadores de todo el mundo se orientan a aplicar ontologías a Internet con la finalidad de construir una Web Semántica y poner así al alcance de los usuarios una herramienta para el uso inteligente de la información presente en la red.

La importancia de la propuesta realizada por los investigadores Jesús Cardeñosa, Carolina Gallardo, Luis Iraola y Miguel Ángel de la Villa, radica en que revoluciona los actuales sistemas de construcción de ontologías, que han tropezado con una gran dificultad debido al componente multilingüe. Cuando las ontologías se aplican a Internet, encuentran serios problemas debido a su amplitud y diversidad lingüística, dificultando el uso inteligente de la web por parte de los usuarios.

Las aproximaciones que se han realizado hasta ahora para resolver el componente multilingüe han tropezado con serios obstáculos. Unas se han basado en el acuerdo de expertos en los términos a usar en cada lengua, pero estas tentativas han restringido enormemente su crecimiento por la dificultad de encontrar expertos en muchas lenguas.

Otras aproximaciones han pretendido utilizar una lengua como pívot (casi siempre el inglés), pero los resultados obtenidos también han sido limitados debido a que la utilización de una lengua natural como interlingua arrastra la ambigüedad propia de dicha lengua natural. Hace 20 años, destacan estos investigadores, se intentaron construir sistemas de traducción automática usando una lengua natural como referencia, con no buenos resultados.

Tesauros multilingües

Por otro lado, desde 1985 existe una norma internacional (ISO 5964:1985) para la creación y desarrollo de Tesauros multilingües, añaden los investigadores de la FIUPM, que no ha resuelto tampoco esta dificultad. Un Tesauro es una lista de términos que pueden estar constituidos por más de una palabra, relacionados entre sí jerárquicamente (términos generales y subordinados), utilizadas para la indización (con fines de archivo) y la recuperación de documentos.

Aunque una ontología no es exactamente un Tesauro, según estos investigadores se asemeja mucho debido a que gran cantidad de ontologías son una versión reducida de su enorme capacidad de representación, restringiéndose a tres tipos de relaciones básicas (“es-parte-de”, “es-un-tipo-de”, “es-un”). Estos tres tipos de relaciones básicas están contempladas en la norma ISO de Tesauros mencionada.

Según estos investigadores, las aproximaciones actuales a la solución del componente multilingüe en la construcción de ontologías se aplican la mayor parte de las veces sobre ontologías con el mismo poder de representación que un Tesauro, no aplicándose siquiera la mencionada norma ISO 5964:1985 para el tratamiento de la multilingüalidad. Pero es que, aunque se aplique esta norma, la aproximación debe usar siempre una lengua como referencia, lo que como se ha comentado nunca ha dado buenos resultados.

Ontologías independientes de la lengua

El método propuesto por los investigadores de la FIUPM resuelve esta dificultad porque se basa en la creación de ontologías que sean capaces de representar la información de una forma independiente de la lengua y por tanto aplicable a los sistemas multilingües.

El avance que supone este método estriba en que, en vez de realizar análisis del lenguaje natural, el método busca patrones lingüísticos (estructuras gramaticales) que se correspondan con estructuras ontológicas precisas, y además de una forma multilingüe, ya que los patrones lingüísticos permiten construir estructuras independientes de una lengua.

La novedad aportada por estos investigadores es su propuesta de construir ontologías multilingües utilizando como nombre de los conceptos las así llamadas “palabras universales”. El concepto “palabra universal” tiene su origen en el Proyecto UNL (Universal Networking Language), de la Universidad de las Naciones Unidas, que fue creado para eliminar las barreras lingüísticas en Internet. Según estos investigadores, las características del UNL se corresponden también, en un alto grado, con las características de una ontología.

Estos investigadores parten de la base de que en los textos corrientes hay más información que la extraíble solamente a partir de los términos del dominio, pues en cualquier texto existen relaciones ontológicas implícitas, extraíbles a partir del análisis de ciertas estructuras gramaticales de las oraciones que forman el texto.

Un caso de estudio

En un artículo presentado el pasado julio en The 2008 International Conference on Semantic Web and Web Services (SWWS'08), estos investigadores describen su aproximación y aportan un caso de estudio para demostrar la validez de su método, para el que han utilizado contenidos del catálogo actual de monumentos españoles en el marco del proyecto Patrilex, del Plan Nacional de Investigación en colaboración con la Subdirección General de Patrimonio.

En este caso de estudio, han codificado las frases del catálogo de monumentos españoles en el lenguaje UNL, que es una representación semántica de dichos contenidos. A continuación han buscado patrones lingüísticos predefinidos en la representación semántica y una vez identificados los contenidos que corresponden a dichos patrones, han procedido a la instanciación de los mismos en estructuras ontológicas.

La gran ventaja de la utilización del sistema UNL es que las palabras universales son independientes de la lengua y no son ambigüas, con lo que traslación de la ontología así construida a cualquier lengua es muy precisa al no haber ambigüedad.

Las palabras universales utilizadas pueden verse y usarse de forma pública en el repositorio de acceso publico desarrollado por estos mismos investigadores y que suelen utilizar para desarrollar diccionarios multilingües, tal como se ha explicado en otra nota de prensa.

Fuente: UPM

Derechos: Creative Commons

Claves