Las webs públicas españolas no se dejan ver

Las administraciones públicas españolas apenas prestan atención a la visibilidad de sus páginas web, según un estudio de la Universidad Carlos III de Madrid (UC3M), que indica que más del 80 por ciento de estas webs no facilita el acceso a la información a los principales motores de búsqueda.

UC3M

1/3/2010 12:47 CEST

Las webs públicas españolas no se dejan ver

La investigación ha revisado más de 4000 webs de la administración pública española para analizar el uso que hacen de los ficheros robots.txt y sitemaps.xml, fundamentales a la hora de aumentar la visibilidad de los contenidos online, puesto que facilitan la labor de inspección y recolección de información que llevan a cabo las “arañas” rastreadoras (crawlers) de los principales motores de búsqueda de Internet (Google, Yahoo, MSN, etc.), que recorren la Red continuamente en busca de nuevas páginas. Los resultados indican que tan sólo un 17 por ciento de los sitios web analizados incluyen un fichero robot.txt válido (frente a un uso de más de 44 por ciento en el sector gubernamental de Estados Unidos, por ejemplo), mientras que apenas un 3 por ciento del total de webs aprovechan el fichero sitemaps.xml.

“Estos datos constatan la escasa atención que las administraciones públicas de nuestro país están prestando a este tema tan importante en la web”, indica uno de los autores del estudio, Bonifacio Martín, del Departamento de Biblioteconomía y Documentación de la UC3M. Esta investigación realizada en el seno del grupo de investigación en Tecnologías Aplicadas a la Información y la Documentación (TECNODOC) de la Universidad se ha publicado recientemente en la revista “El profesional de la información” bajo el título “Uso de robots.txt y sitemaps en la administración pública española”.

Una buena definición del fichero robots.txt en los sitios web permite establecer ciertas indicaciones para los crawlers de los motores de búsqueda que pueden mejorar la gestión del tráfico web y facilitar la actualización de la información del motor de búsqueda de esas páginas web. Mediante el fichero sitemaps.xml se puede, además, afinar mucho más el trabajo que hacen estos robots al indicar información relativa al periodo de actualización o el nivel de importancia en la prioridad de indexación de cada página, por ejemplo.

La importancia de la visibilidad en las webs

La idea de iniciar esta investigación surgió cuando estos profesores se dieron cuenta de que sus estudiantes solían acudir a fuentes de información no oficiales, como blogs y empresas, cuando esos sitios web solo se hacían eco de información publicada en algunos ministerios u otros organismos públicos. “No se trataba tanto de analizar el posicionamiento de algunas páginas respecto a ciertas palabras sino de la visibilidad de un sitio web y nos preguntamos si los sitios webs de los ministerios le estaban facilitando la tarea a los buscadores o, por el contrario, se la complicaban a propósito o por dejación”, explica Tony Hernández Pérez, responsable del grupo TECNODOC.

La escasa preocupación por parte de los administradores de esos sitios web españoles respecto a la actividad de los crawlers, como dicen las conclusiones del estudio, se puede deber al desconocimiento de la importancia que estos dos sencillos elementos tienen en el desarrollo correcto de las sedes web o por el enfoque a la hora de construir un sitio web, comentan los investigadores. “De hecho – añaden - suele ser muy habitual en ciertos desarrollos web poner el acento en los aspectos más visuales o estéticos frente a una correcta descripción formal del sitio y de sus contenidos a través de metainformación que permita que los robots y luego la gente pueda descubrir el sitio”.

Para realizar esta investigación estos expertos seleccionaron las webs de la administración pública a partir del sitio 060.es y desarrollaron un crawler para descubrir páginas y recursos en la web, en este caso para la recolección automática de la información contenida en los ficheros robots.txt y, en caso de existir, en los ficheros sitemaps.xml. La información obtenida fue analizada sintácticamente por otras aplicaciones informáticas específicas y una vez obtenido un conjunto de ficheros válidos para su tratamiento, se analizó de forma pormenorizada los campos que se estaban utilizando en cada caso y la información que contenían.

Los investigadores han observado en los últimos años una mejora paulatina en muchos aspectos del desarrollo de sitios web de administraciones públicas, principalmente en la Administración Pública del Estado al contar con más medios económicos, técnicos y humanos, sobre todo en el caso del Ministerio de Cultura y de algunos organismos dependientes de Economía. “Debido a ciertas imposiciones normativas en el desarrollo de Webs - accesibilidad, principalmente – se está invirtiendo mucho en la mejora de sus espacios electrónicos en Internet”, explican. “Sin embargo – señalan y así consta en el estudio - uno de los mejores ejemplos de uso de los sitemaps se encuentra en la Administración Local, en concreto en el caso de la web del Ayuntamiento de San Sebastián y del portal AyuntaWeb”.

Bibliografía:

Título: Uso de robots.txt y sitemaps en la administración pública española
Autores: Bonifacio Martín Galán, Tony Hernández Pérez, David Rodríguez Mateos y Daniel Peña Gil.
Fuente: El profesional de la información, v. 18, n. 6, noviembre-diciembre 2009
ISSN: 1386-6710

Más información:

Ver Video

Oficina de Información Científica de la Universidad Carlos III de Madrid

Fuente: UC3M

Derechos: Creative Commons