martes, febrero 12, 2008

The Deep Web: Alcanzando la información escondida en la web

He estado leyendo un artículo sobre lo que se ha denominado Deep Web. Se denomina a aquella parte de la web que no está listado en los motores de búsqueda, frente a la web superficial que es aquella parte indexada por los motores de búsqueda. Este artículo es del año 2000, pero algunas estimaciones de aquellos entonces:
  • La cantidad de información que está en esta en esta zona de la web se calcula entre 500 veces mayor que la web indexable.
  • En aquellos entonces, la información calculada que contenía era el de unos 7500Tb, mientras que lo que existía indexado era aproximandamente de 19 Tb - cifras que en el año 2008 pueden ser muchísimo mayor -.

En primer lugar, mucha de esta información no está directamente indexable con las técnicas que utilizan los motores de búsqueda (analizar páginas que se van encontrando, extraer los enlaces de las mismas, y seguir indexando el contenido), puesto que es contenido dinámico, contenido generado a partir de consultas a bases de datos a través de portales web o sitios que simplemente están protegidos por contraseñas.

Un ejemplo de información que se encuentra en esta zona son las publicaciones de artículos universitarios, situados en bases de datos de consulta complicada. Dentro de este ámbito, la Universidad de Michigan tiene el proyecto oaister que consultará varios índices para buscar información que cuesta encontrar en la superficie de la web.

Technorati Tags:

No hay comentarios: