8.3. Internet Invisible: información oculta en los motores de búsqueda

Autor: Ricardo Albiñana Bertomeu

 

1.      INTRODUCCIÓN

El propósito de este trabajo es definir la Web invisible así como su composición, estructura, estimaciones sobre su dimensión, contenido, calidad y capacidad de los motores de búsqueda actuales.

Los buscadores generalistas son incapaces de indizar información de las bases de datos. Esta información=Web académica invisible.

2.      La Web invisible: definición y propiedades.

·         Web visible=de superficie=accesible: información indexada por robots de buscadores convencionales. De libre acceso. Páginas web estáticas con URL fija.

·         Web invisible=de profundidad=oculta=infranet. (Mediados de los 90). Información que los motores de búsqueda no indizan, volátil, dinámica, tratada. Requiere formulario. Páginas sin URL fija.

3.      Causas de la invisibilidad de contenidos:

Invisibilidad coyuntural y estructural:

·         profundidad en la URL,

·         tamaño en kb,

·         frecuencia de rastreo, indización y actualización de los robots,

·         número máximo de resultados visualizados,

·         importancia de enlaces (la relevancia),

·         web desconectada (páginas no enlazadas al núcleo),

·         metaetiqueta “noindex”,

·         web privada, profesional=protegida por contraseñas: intranets, extranets, bases de datos de pago,

·         limitaciones del buscador o de la red: programas .exe, ficheros comprimidos, servidores caídos, cambios de nombre, apagones, desconexiones, colapsos, cortafuegos, etiquetado deficiente.

Internet oscura=razones de estado, militares, fraude.

Los motores de búsqueda llegan a 1/5 del contenido de la web. Sobre todo, ámbito anglosajón.

4.      Clasificación de recursos en la web invisible.

Unos proporcionan el documento final y los que refieren solo localización: bases de datos de literatura científica, bases de datos de pago, repositorios open access, catálogos, guías, directorios, revistas, exposiciones, enciclopedias, listas, blogs...

5.      Calidad y amplitud de la web invisible.

Gran calidad por los continuos procesos de control en diseño y actualización. La información invisible crece 10 veces más rápido que la visible.

6.      Consejos para la consulta y recuperación de información en la web invisible.

Incapacidad de los motores de búsqueda convencionales.

·         definir y refinar al máximo la búsqueda,

·         amplio conocimiento del mercado,

·         dominar técnicas de recuperación (búsquedas expertas, operadores, delimitadores, truncamientos) y conocer idiomas (inglés) y vocabulario técnico,

·         consultar ayudas en línea

·         evaluación de contenidos (fiabilidad y credibilidad)

·         fuentes de referencia especializadas cualificadas.

Análisis crítico de los resultados.

7.      Fuentes de información para la identificación de la Web académica invisible.

Recopilaciones, directorios...

8.      Un ejemplo en el ámbito hispano: "Un directorio temático especializado en el campo de los estudios fílmicos"

Base de datos de bases de datos, hispanohablante.

  •  Acceso, clasificación, sistemas de búsqueda y selección de la información
  •  Areas: pública y privada o administrativa. Estructurado en tablas y gráficos. Correcto mantenimiento: control de enlaces y de  cambios, contenidos correctos. Módulo de chequeo (URL Checker) y de sindicación de contenidos RSS.
  •  Gama de recursos disponibles: catálogos, directorios, revistas, publicaciones, estadísticas...
  •  Ejemplos de preguntas y respuestas.
  •  Selección, evaluación y catalogación de la información:

Dublin Core Metadata Initiative (DCMI), formato estándar de descripción de recursos electrónicos. El uso de metadatos supone dar una carga semántica. 3 tipos de metadatos: descriptivos (propiedades físicas e intelectuales y contenido), temáticos (clasificación por categorías según un cuadro de clasificación, nada de notaciones numéricas, más flexible y fácil de adaptar, y materias=palabras clave) y administrativos (fecha de creación, modificación...)

  • Aspectos técnicos:

Programa CWIS, plataforma interoperable y de software libre. Adaptado y traducido al español.

 


Para saber más, enlaces de interés: