Suscríbete al boletín semanal

Recibe cada semana los contenidos más relevantes de la actualidad científica.

Agencia Sinc
Si estás registrado

No podrás conectarte si excedes diez intentos fallidos.

Si todavía no estás registrado

La Agencia SINC ofrece servicios diferentes dependiendo de tu perfil.

Selecciona el tuyo:

Periodistas Instituciones

Aparece el primer diccionario electrónico público de español

Un primer diccionario electrónico español de dominio público y libre distribución ha sido desarrollado por el proyecto COES, dirigido por Santiago Rodríguez, profesor de la Facultad de Informática Universidad Politécnica de Madrid (FIUPM), y por Jesús Carretero, actual profesor de la Universidad Carlos III de Madrid y antiguo profesor de la FIUPM.

Las herramientas para la lengua española COES son un campo de investigación del Departamento de Arquitectura y Tecnología de Sistemas Informáticos (DATSI) de la FIUPM. El principal objetivo de esta investigación es formalizar un conjunto de reglas gramaticales españolas y aplicar dichas reglas para probar distintos tipos de corrección en documentos escritos en Español. Para facilitar la distribución, COES se distribuye como software de libre disposición desde sus inicios en 1994. A pesar de tener más de diez años de antigüedad, la herramienta está actualizada y puede consultarse en la página del proyecto.

El sistema de diccionarios de español está integrado por un diccionario electrónico en formato texto, que contiene 53.000 términos, un fichero de clases morfológicas flexivas del español, y un script que permite generar un diccionario expandido en formato binario, que contiene todas las formas flexivas de los verbos, los nombres y los adjetivos del diccionario de lemas, junto con las formas invariables, como adverbios, conjunciones, etc.

Este conjunto de ficheros compone un diccionario de español cuyo número de términos está en constante incremento, aunque no se puede disponer de nuevas versiones hasta que no se comprueba su correcto funcionamiento. Es en ese momento cuando que se hacen públicas las nuevas versiones. La distribución actual de COES incluye un corrector ortográfico.

El diccionario en formato binario se puede integrar en un sistema de corrección ortográfica del español para sistemas operativos Unix, mediante la utilización de la herramienta de dominio público ispell.

A partir del diccionario electrónico expandido en formato binario espa~nol.hash) y del diccionario de lemas (espa~nol.words), es posible generar el diccionario de formas expandidas en formato texto (espa~nol.wl).

Tal como comenta al respecto Infoling, "disponer del diccionario electrónico expandido en formato texto puede resultar particularmente importante para los desarrolladores de tecnologías lingüísticas del español --tanto de Universidades como de empresas-- que necesiten integrar un diccionario de formas flexivas en aplicaciones específicas, especialmente, teniendo en cuenta que los diccionarios del proyecto COES son los únicos diccionarios electrónicos del español de dominio público y de libre distribución (sin licencia)".

El conjunto completo de diccionarios y otros componentes están integrados por un fichero de sufijos de flexión morfológica de verbos, nombres y adjetivos del español; una lista de palabras, que aparecen en el Diccionario de la Real Academia Española de la Lengua (vigésima primera edición); otra lista de palabras que no aparecen en el diccionario de la Real Academia Española de la Lengua, pero que son de uso corriente en español; una lista de palabras que, aunque no aparecen en el Diccionario de la Real Academia Española de la Lengua, se utilizan habitualmente en informática.

Asimismo, este conjunto de diccionarios integra una lista de palabras que, aunque aparecen en el Diccionario de la Real Academia Española de la Lengua, corresponden a acepciones que no tienen un uso real en el español actual; una lista expandida de palabras, un script y un fichero Makefile.

Fuente: UPM
Derechos: Creative Commons
Artículos relacionados