Búsqueda avanzada

Tecnologías: Tecnología de los ordenadores

Analizan los errores que correctores automáticos y programas comente en euskera

El grupo IXA de la Facultad de Informática de la UPV/EHU lleva años investigando el desarrollo de sistemas (semi)automáticos beneficiosos para el euskera. Entre estos sistemas, se encontrarían el tratamiento automático de los errores en euskera y las herramientas que permiten el aprendizaje de la lengua con medios informáticos. Larraitz Uria, miembro del grupo IXA, ha fijado en su tesis doctoral presentada en la UPV/EHU las bases para el desarrollo de estos dos sistemas, mediante el establecimiento de varios criterios de análisis de errores y desviaciones.

Analizan los errores que correctores automáticos y programas comente en euskera

Larraitz Uria Garín, autora de la tesis.

UPV/EHU | 15 marzo 2010 14:16

La tesis doctoral de Uria se titula Euskarazko erroreen eta desbideratzeen analisirako lan-ingurunea. Determinatzaile-erroreen azterketa eta prozesamendua (Entorno de trabajo para el análisis de errores y desviaciones en euskera. Evaluación y procesamiento de errores con determinantes). En primer lugar, se han diferenciado los errores y las desviaciones, y ésta es una de las aportaciones de la investigación. Los errores son fallos en la ortografía o la gramática. Las desviaciones son palabras gramaticalmente correctas pero inapropiadas para un contexto determinado; están relacionadas con el registro o el dialecto. El objetivo es que los sistemas automáticos del futuro diferencien los dos conceptos, por lo que la distinción es relevante.

Uria informa sobre dos bases de datos en las que ya se han comenzado a recopilar ejemplos sobre errores y desviaciones. Han sido puestas en marcha por el grupo IXA, y están adaptadas a dos aplicaciones. En la primera se almacena la información necesaria para desarrollar los tratamientos automáticos de los errores en euskera (correctores, marcadores de variaciones dialécticas, etc.). En la segunda, se recopilan los datos que faciliten la creación de herramientas para el aprendizaje de la lengua con medios informáticos. Es totalmente inusual fusionar estas dos líneas, pero muchos de los datos para el tratamiento automático de errores son útiles para el aprendizaje con medios informáticos, y viceversa. Ésta es una de las aportaciones de este trabajo.

Imprescindible para desarrollar un detector de errores

Otra de las aportaciones de la tesis es el corpus, el cual está ya en funcionamiento y es el principal soporte en el que se apoyan las bases de datos. De ahí se están empezando a extraer los primeros ejemplos de errores y desviaciones, los cuales son imprescindibles para desarrollar un sistema que sea capaz de detectarlos. Se ha formado ya un corpus de 113.290 palabras, derivadas de la recopilación de textos de estudiantes de euskera de varios niveles. De la misma manera, se han incluido algunos textos de estudiantes de euskera técnico y de hablantes comunes. En este primer paso, se ha establecido una cantidad de información importante para comenzar el análisis, y se han definido los criterios para crear el corpus.

El próximo paso a seguir es el etiquetado. En esta tesis doctoral, y como punto de partida de la investigación, se han etiquetado mayoritariamente los errores cometidos con determinantes. Como los fallos con determinantes en euskera son poco comunes, pero a su vez son muy graves cuando se cometen, Uria ha considerado que es un ejemplo adecuado para realizar una primera prueba. De todas maneras, su intención en un futuro es desarrollar la detección de todo tipo de errores y desviaciones. Para el proceso de etiquetado se ha valido de EtikErro, un editor creado por el grupo IXA. Además de etiquetar errores, exporta a las bases de datos los ejemplos etiquetados, incluyendo también la información lingüística necesaria para el análisis.

En cuanto a la fase de clasificación -justo después del etiquetado- se ha hecho una gran aportación. Se ha definido la estructura principal de la clasificación, desarrollando especialmente la categoría referente a los errores con determinante. Finalmente, y después de cumplir las fases ya mencionadas, se ha procedido a la creación de las dos bases de datos. Ambas almacenan los mismos ejemplos e información lingüística, pero también tienen diferencias. La base de datos para el tratamiento automático de errores en euskera incluye información técnica. En cambio, la base de datos para el aprendizaje del idioma con medios informáticos almacena información psicolingüística.

Primeros resultados del tratamiento automático

Uria ya ha realizado, junto al grupo IXA, las primeras pruebas para comprobar los resultados que da el tratamiento automático de errores basado en los instrumentos mencionados. Mediante una técnica y una serie de reglas adecuadas para los errores cometidos con determinantes, ha medido la precisión del tratamiento. Es decir, ha comprobado la eficacia del tratamiento con un programa informático. En un principio, la precisión fue sólo de un 45,5 %. Sin embargo, si previamente se eliminan los errores que no están etiquetados, el “ruido” desaparece y la precisión se eleva al 80 %. Uria ha concluido también que cuanto más extenso sea el corpus, mayor será su eficacia. La aportación que supone su tesis no es más que un primer paso para un reto de futuro.

Localización: País Vasco
Fuente: UPV/EHU
  • Diggit
  • Meneame
  • Delicious
  • Facebook
  • Twitter
  • Arroba

Comentarios (0)

ÚLTIMAS NOTICIAS

La sobre expresión de una proteína, responsable del daño neuronal en personas con Síndrome de Down

El estudio coordinado por el Centro de Regulación Genómica (CRG) reprodujo en un ratón transgénico los mismos patrones morfológicos y funcionales en las conexiones neuronales de las personas con síndrome de Down. Regulando la actividad de esta proteína se producían un crecimiento neuronal mu...

Analizan el apoyo social a la gestión de especies invasoras en Doñana

Analizan el poyo social a la gestión de especies invasoras en Doñana

Un artículo publicado en la revista Environmental Management por investigadores de la Universidad Autónoma de Madrid (UAM) analiza los factores que influyen en la disposición de los ciudadanos a la hora de pagar por la erradicación y prevención de invasiones biológicas en el Espacio Natural Doñana.

Revelan que el famoso escritor James Joyce no padecía miopía sino hipermetropía

James Joyce fotografiado por Alex Ehrenzweig en 1915. Imagen: Wikipedia

El análisis de las gafas que usaba James Joyce a través de un centenar de fotografías junto al hallazgo de una prescripción de lentes de 1932 tira por tierra el mito creado por los biógrafos. El déficit de visión del autor podría explicar los errores ortográficos, neologismos y ausencia de signos...

Diseñan mapas de riesgo y vulnerabilidad de edificios en conjuntos históricos

La investigadora de la Universidad Pablo de Olavide Pilar Ortiz, coordinadora del proyecto

Investigadores de las Universidades Pablo de Olavide e Hispalense, junto con las empresas Research Aprorca y Ecomímesis acometen un proyecto dirigido a la elaboración de mapas de riesgos y perímetros de vulnerabilidad de los centros históricos de Andalucía, para establecer medidas de prevención y...

Descifran los componentes pictóricos de dos cuevas asturianas del Paleolítico

Motivo pictórico de la cueva de El Buxu. Imagen: Antonio Hernanz.

Técnicas químicas al servicio del arte. Investigadores de la UNED han analizado pinturas del Paleolítico en las cuevas de Tito Bustillo y El Buxu (Asturias) para averiguar su composición. El estudio revela que su principal componente es el mineral hematites y que el grano de los pigmentos es tan...