Suscríbete al boletín semanal

Recibe cada semana los contenidos más relevantes de la actualidad científica.

Agencia Sinc
Si estás registrado

No podrás conectarte si excedes diez intentos fallidos.

Si todavía no estás registrado

La Agencia SINC ofrece servicios diferentes dependiendo de tu perfil.

Selecciona el tuyo:

Periodistas Instituciones
La versión española de DBpedia multiplica infoboxes y páginas transformadas

Fuerte impulso a la Wikipedia semántica en español

El volumen de datos en español de la DBpedia ha avanzado 9 puestos de 15, pasando a ser uno de los tres primeros idiomas en estos momentos. Asume así un puesto equivalente al que ocupa en la Wikipedia en cuanto a número de entradas. El aumento de la información disponible en la versión española de DBpedia ha pasado de tener solo cuatro tipos de infoboxes transformados a más de 100, y de 20.000 páginas transformadas a más de 400.000.

Linked Data
La red española de Linked Data. Fuente: LD

DBpedia es un proyecto para la extracción de datos de Wikipedia y la construcción de una versión semántica de esta enciclopedia de Internet. Es un esfuerzo de la comunidad por extraer información estructurada de Wikipedia y por hacerla accesible desde la Web. De ese modo se consigue que el conocimiento recogido pueda ser aprovechado computacionalmente.

La DBpedia es una gran base de datos estructurada que se obtiene a partir de la información proporcionada por personas de todo el mundo en muchas de las páginas de Wikipedia, en lo que se denominan plantillas o infoboxes (cajas de información). Estas infoboxes aparecen en un recuadro situado a la derecha de muchas de las páginas de Wikipedia. Por ejemplo, para la página en español correspondiente a la ciudad de Madrid, su infobox contiene la bandera, el escudo, algunas fotos de la Puerta de Alcalá, el Palacio Real, la Gran Vía, etc., e información sobre su población, alcalde, códigos postales, etc.

Esta información se genera mediante la ejecución de documentos de transformación, que permiten especificar cómo los datos del infobox se transforman al lenguaje RDF de acuerdo con vocabularios comúnmente utilizados por un gran número de organizaciones. El lenguaje RDF es un estándar del consorcio de la World Wide Web para la representación de datos en la Web, y es la base de la Web de Datos.

Reciente maratón

Los pasados 3 y 4 de noviembre, la Red Temática Española de Linked Data, que lidera Óscar Corcho, del Grupo de Ingeniería Ontológica de la Facultad de Informática de la Universidad Politécnica de Madrid, ha organizado unas jornadas de creación de descripciones de correspondencias de datos de la Wikipedia en español, para permitir la generación de datos en la versión española de DBpedia. Estas jornadas han sido organizadas por Mariano Rico, responsable del idioma español en el comité de internacionalización de DBpedia.

Esta actividad forma parte de la language race mundial en la que se están creando versiones de DBpedia en diversos idiomas. En el evento han participado 15 personas de distintas instituciones públicas y privadas (Universidad Politécnica de Madrid, iSOCO, Universidad Autónoma de Madrid), así como personas interesadas a título particular. La red temática española de Linked Data continuará organizando en los próximos meses más actividades como esta y otras similares por toda España.

El resultado de estas jornadas ha sido todo un éxito, con un aumento increíble de la información disponible en la versión española de DBpedia, pasando de tener sólo cuatro tipos de infoboxes transformados a más de 100, y de 20.000 páginas transformadas a más de 400.000. Los datos actualizados y la relación entre distintos idiomas, que se actualiza cada día, estan disponibles en Internet.

Avance de datos en español

Toda la comunidad hispano-hablante se podrá beneficiar de la gran base de datos de DBpedia en aplicaciones como estas:

  • Sem4Tags, una herramienta que permite identificar a qué recurso de DBpedia se refiere una etiqueta realizada por un usuario en portales sociales como Flickr, Youtube, Facebook, etc.

  • DBpedia Spotlight, en cuyo desarrollo también han participado miembros de la red, junto con miembros de la universidad FUB de Berlín, y cuya versión para el español está en preparación.

  • Detección de temas en mensajes de Twitter

  • Enseñanza en disciplinas científicas, donde los alumnos pueden obtener definiciones de esta base de datos para sus modelos sobre ecología, medio ambiente, etc.

Fuente: UPM
Derechos: Creative Commons