Crean un generador semántico de resúmenes de biomedicina

Para facilitar el acceso a la bibliografía biomédica especializada, investigadores de la Universidad Complutense de Madrid han desarrollado un nuevo software que crea automáticamente resúmenes de textos identificando conceptos y relaciones semánticas entre ellos.

UCM/SINC

17/10/2011 10:44 CEST

Vista del sitio web desde donde se accede a la UMLS. Este sistema fue diseñado y está mantenido por la US National Library of Medicine.

Investigadores del Departamento de Ingeniería del Software e Inteligencia Artificial de la Universidad Complutense de Madrid (UCM) han desarrollado un método para la generación automática de resúmenes de textos de biomedicina, basado en la representación del documento como un grafo para identificar conceptos y las relaciones semánticas entre ellos.

El acceso a la bibliografía en biomedicina resulta fundamental tanto para los profesionales de la salud como para los consumidores. Sin embargo, el volumen de artículos disponibles supone una amenaza para el aprovechamiento de la información. La generación de resúmenes constituye una incuestionable ayuda para la gestión de esta sobrecarga de datos. Además, mejora el indexado y la categorización de la bibliografía.

“Al evaluar los resúmenes automáticos frente a los resúmenes manuales de los autores, se ha encontrado que la mejor estrategia es aquella que selecciona la mayor parte de la información del principal tema del documento, pero también incluye otra información secundaria o 'satélite' que podría ser relevante para los usuarios”, explica Laura Plaza, una de las autoras del trabajo.

Uso de conceptos en lugar de palabras

Aunque la mayoría de los sistemas de generación de resúmenes están diseñados para ser multipropósito y no tienen en cuenta las propiedades particulares de cada dominio y tipo de documento, estudios recientes han demostrado los beneficios de la generación de resúmenes basada en representaciones más ricas que hacen uso de fuentes de conocimiento de un dominio específico.

Esta última tendencia representa los documentos usando conceptos en lugar de palabras, pudiéndose enriquecer mediante el uso de asociaciones semánticas entre conceptos (por ejemplo, sinonimia, hiperonimia, homonimia, concurrencias o asociaciones semánticas) para mejorar la calidad de los resúmenes. En particular, el Unified Medical Language System (UMLS) ha demostrado ser una fuente de conocimiento útil para la generación de resúmenes en el dominio de la biomedicina.

El sistema calcula la relevancia de las oraciones a extraer en relación a la importancia, peso o prestigio de los conceptos en el grafo del documento. De este modo se construye una representación más rica en conocimiento (semántica) que la proporcionada por los modelos tradicionales basados en términos.

Distintas estrategias para la generación de resúmenes

Los investigadores proponen tres estrategias o heurísticas para la selección de oraciones, donde cada una de ellas pretende construir un tipo diferente de resumen según el tipo de información en la fuente que es probable que se incluya en el resumen.

Además, el generador de resúmenes se enfrenta a diversos problemas derivados de las peculiaridades de la terminología biomédica, tales como la ambigüedad léxica y el uso de acrónimos y abreviaturas.

Referencia bibliográfica:

Laura Plaza, Alberto Díaz, Pablo Gervás. "A semantic graph-based approach to biomedical summarisation". Artificial Intelligence in Medicine 53 (2011) 1– 14.

Fuente: Universidad Complutense de Madrid

Derechos: Creative Commons

Claves

Artículos relacionados

Lo más visto

España alcanza casi 350 000 hectáreas quemadas Descubren cómo el linfoma reconfigura el genoma humano a gran velocidad Los incendios forestales continúan activos en siete comunidades autonómas Fomentar la economía rural, el mejor antídoto contra los incendios “El discurso del ‘terrorismo incendiario’ evade las causas estructurales de los incendios forestales” El calor se convertirá en uno de los mayores riesgos para los trabajadores, según la OMS Una supernova única revela el mecanismo interno de una estrella moribunda Subestiman la mortalidad de las partículas finas de incendios forestales en un 93 % La contaminación lumínica hace que las aves canten 50 minutos más al día “En España, como en el resto de Europa, las acciones preventivas frente a los incendios son anecdóticas”

Comparte

Publica

Licencia Creative Commons

Creative Commons 4.0

Puedes copiar, difundir y transformar los contenidos de SINC. Lee las condiciones de nuestra licencia