lunes, 31 de octubre de 2011

Tendencias de los recursos de información en internet: Formato Dublin Core

Resumen[1]

“Se muestran diferentes tendencias que caracterizan las herramientas de búsqueda de información existentes en Internet con respecto a la utilización de los metadatos. Se aborda también el tema del empleo de los formatos normalizados de metadatos para la descripción de los recursos de información, con énfasis en los principios, las características y la codificación del formato Dublín Core en HTML”.

Palabras clave: Herramientas de búsqueda, metadatos, Dublin Core, HTML. 

Los usuarios de Internet se encuentran siempre inmersos en grandes volúmenes de información y cuya utilidad se ve cada vez más reducida, tanto por las características propias de los recursos digitales: volatilidad, inestabilidad, entre otros, como por carecer de semántica necesaria como para que las herramientas diseñadas para la búsqueda y recuperación de la información en Internet puedan recobrarlos según sean las necesidades. 

Estas herramientas se basan fundamentalmente en la automatización de tareas de clasificación e indización; la mayoría emplean un robot que se ocupa de recorrer constantemente la Web para clasificar y organizar automáticamente la información encontrada y confeccionar a partir de ella sus bases de datos. Este tipo de indización es, sin lugar a dudas, menos costosa que la indización humana, pero, a diferencia de esta última, la indización automática es bastante imperfecta y no puede identificar las características de los documentos (materia, autor, fecha de publicación), o distinguir el tipo de documento, por ejemplo, si se trata de un artículo o de un libro.

Todo esto se debe a que la mayoría de estas herramientas no soportan metadatos y, en los casos en que están preparadas para reconocerlos, la mayoría de los autores de páginas Web no los emplean en la creación de los documentos, bien sea por el desconocimiento de su importancia o de cómo hacerlo.

Si los autores de páginas Web utilizaran modelos de metadatos estándares para agregar una descripción en los documentos que ellos generan, se facilitaría, tanto el trabajo de las herramientas para la recuperación de información en la Web que reconocen metadatos, como de los usuarios que realizan esas consultas, quienes podrían valorar el contenido de los documentos sin tener la necesidad de acceder al original, y ahorrarse un tiempo valioso. 

En el contexto de Internet, existen diversos mecanismos o herramientas utilizadas para la recuperación de información, cada una de ellas, con tendencias diferentes hacia la utilización o no de los metadatos; entre las herramientas más destacadas, se conocen: los directorios o índices, los motores de búsquedas, meta-buscadores y portales temáticos. 

Los índices o directorios son las mismas listas de recursos, organizados en categorías temáticas por los expertos. 

Las categorías temáticas se organizan jerárquicamente sobre un árbol de materia que le permite descender desde las más generales a las más específicas, las categorías presentan una lista diversa de enlaces a las páginas Web referidas en el buscador. 

Los directorios son sistemas pre-coordinados de recuperación de información, que ofrecen inventarios de materias. Los directorios han comenzado a evolucionar hacia el mundo de los portales temáticos. El ejemplo más representativo de directorio hasta el momento es Yahoo (http://www.yahoo.com), que se ha convertido también en un portal, pero mantiene aún su estructura, según categorías. 

Es clave agregar que no se puede hablar en sentido estricto de metadatos asociados a este tipo de sistemas de recuperación de información en Internet, sin embargo, las categorías clasificatorias que establecen estos sistemas podrían entenderse como meta-información que anticipa, de algún modo, el contenido de los recursos clasificados al interior de cada tema, al agrupar la información en listas pre-coordinadas del encabezamiento de materia. 

La organización de los recursos que realizan estos directorios nos podría llevar a considerarlos sistemas de recuperación de información con organización de tipo bibliotecaria; porque aun cuando no son bibliotecas digitales en sentido estricto, sí se basan en criterios que son semánticos y de organización del conocimiento. 

Se puede hablar de metadatos estrictos, que están vinculados a directorios generales dado el caso del Open Directory Proyect (ODP) (http://dmoz.org), un directorio puro, que sirve para la clasificación cooperativa de información en RDF[2].

Los buscadores de información conocidos como sistema de recuperación de información en Internet Altavista, Excite y otros, son sistemas post-coordinados de recuperación de información, consistentes en bases de datos que son voluminosas, generadas a partir de la indización automática de los textos completos o de partes significativas de los documentos que son encontrados en Internet por los robots, que emplean principalmente unas técnicas de análisis estadísticos y ponderación. 

En opinión de Méndez, los metadatos que se consideran en la indización -y en su caso, en el cálculo de relevancia-, son los que se denominan meta-etiquetas o meta-tags, creadas como estructuras genéricas de meta-información (cabeceras HTML) por los autores o editores de los recursos Web. 

1.   Si estos sistemas utilizan metadatos HTML para indizar (AltaVista, Hotbot, MetaCrawler, Inktomi, Infoseek, entre otros), lo hacen sobre valores básicos (Description, Keywords) de las meta-etiquetas HTML o a lo sumo las meta-etiquetas author u otras partes del documento HTML que puedan entenderse en cierto sentido, como meta-información.

2.    No existe un acuerdo sobre los motores de búsqueda que utilizan las etiquetas <META> para el cálculo de relevancia de sus búsquedas, porque habitualmente el funcionamiento interno de los buscadores es transparente para los usuarios y los propios creadores de este tipo de software tampoco realizan mucha publicidad sobre las funcionalidades. 

Rodríguez Gairín , en un artículo escrito sobre el buscador AltaVista, plantea que muchos motores de búsqueda emplean la información que está almacenada en los meta-elementos para crear sus índices y permitirle al usuario un acotamiento por campos, y que posibilite que el ruido generado por la indización del texto completo pueda reducirse fácilmente[3].

3.   En el caso de Altavista, por el momento, sólo utiliza la metainformación almacenada en “KeyWords” para generar sus índices y la almacenada en Description para elaborar el breve resumen que presenta en la hoja de resultados. 

En opinión de Koch, los sistemas de recuperación globales que se basaban, de alguna forma, en metaetiquetas HTML para la indización eran: Altavista, Infoseek, SwistSearch, Hotbot, Webcrawler, los motores de búsquedas de información en alemán, Aladin y Eule y los sistemas de recuperación de información en Internet especiales para metainformación, Fireball, Polish Academic Web Index, Hotmeta Search Engine (que indizaba metadatos DC) y Nordis Metadata Index -que indizaba los modelos IAFA, DC y Gil[4].

Publicado por Nubia Cortés y Myriam Gil.




[1] Fuente (Vancouver): Daudinot Founier, Isabel. Descripción de los recursos de información en Internet: formato Dublín Core. Acimed 2006;14(4). Disponible en: http://bvs.sld.cu/revistas/aci/vol14_4_06/aci09406.htm Consultado: día/mes/año.
[2] Méndez Rodríguez EM. Metadatos y recuperación de información: estándares, problemas y aplicabilidad en bibliotecas digitales. Gijón: Trea; 2002.
[3] Rodríguez Gairín J. M. Valoración del impacto de la información en Internet. Altavista, el “Science Citation Index” de la red. Revista Española de Documentación Científica 1997;20(2):175-181. Disponible en: http://bd.ub.es/pub/rzgairin/altavis.htm [Consultado: 8 de enero del 2006].
[4] Koch T. Documentation to: metadata Indexing and searching in large search. 1998. Disponible en: http://www.lub.lu.se/~traugott/Mdsearch-docu.html [Consultado: 15 de enero del 2006].

No hay comentarios:

Publicar un comentario