samedi, juillet 09, 2005

Le web profond (suite)

La notion de web profond (deep web) aussi appelé web invisible (invisible web) était un peu confuse dans mon esprit embrumé, je me suis plongée sur le sujet, voila ce que j'en retiens.

Wikipédia définit le web profond comme suit:

"Les ressources vers lesquelles les hyperliens sont créés dynamiquement pour répondre à une interrogation échappent aux robots d'indexation. En effet, un robot n'est pas capable d'émettre des interrogations pertinentes, aucun hyperlien n'est donc créé lors de sa visite."


Cette définition est un peu obscure... Allons voir toujours sur Wikipédia mais en anglais ce que ca dit...

"The deep web (or invisible web or hidden web) is the name given to pages on the World Wide Web that are not indexed by search engines. It consists of pages which are not linked to by other pages, such as Dynamic Web pages based on responses to database queries. The Deep Web also includes sites that require registration or otherwise limit access to their pages. It should not be confused with the term dark web or Dark internet which refers to machines or network segments not connected to the Internet. While deep web content is visible to people but not to search engines, dark internet content is accessible by neither people nor search engines."


C'est quand même plus clair!
Le web profond est donc l'ensemble des pages et documents, qui sont accessibles par les internautes, mais non accessibles aux robots d'indexations des moteurs de recherche.
Ce sont ces robots d'indexations qui permettent la constitution des indexs de recherche.

Il s'agit donc des documents, pourtant accessibles aux internautes, que l'on ne trouvera pas en cherchant dans un moteur de recherche classique (Google par exemple).

Le "web profond" s'oppose au "web surfacique".


Voilà la représentation qu'en fait BrightPlanet (les bateaux représentant les moteurs "profonds").


La limite entre web "surfacique" et web profond est bien entendue floue et changeante...
Elle dépent des moteurs et de leurs limites techniques.
Des bases s'ouvrent, les moteurs indexent de plus en plus de documents.
Ne serait que parceque certaines pages générées dynamiquement sont directement liées à partir de pages statiques exterieures.
Et puis certains formats comme le PDF, qui étaient hier "profonds", sont aujourd'hui faciles à "lire" pour les moteurs.

A contrario, l'acroissement, très rapide de la taille du web, est un problème pour les moteurs qui ont du mal à indexer complètement le contenu des tous les sites dont ils connaissent pourtant les urls d'entrées et qui n'opposent pas de problèmes techniques particuliers.
Ce problème d'indexation lié à la "profondeur" (c'est à dire à leur taille et pas à des contraintes techniques) des sites, est admis par les moteurs qui cherchent des solutions. Google a, par exemple, lancé de facon expérimentale " Google Sitemaps" .
Le webmaster fourni un plan du site en XML, qui permet au moteur d'apréhender plus facilement le contenu et les changements de structure.


Quant aux très grosses bases qui constituent le coeur du deep web, les moteurs traditionnels (Google, Yahoo, Askjeeves, Exalead, Msn) essaient de trouver des solutions pour les indexer et proposer leurs riches contenus à leurs utilisateurs (cf ces billets concernant Yahoo (lu sur le blog de yahoo) et Google (lu sur Betanews)).


Ou l'on parle du web profond (ceci n'est pas exhaustif):
Web invisible, web caché, web profond: Sur le site Intelligence center.
Il s'agit d'un dossier très complet, en francais, et clair sur le sujet (Malheureusement pas datée, mais elle semble assez récente). A lire!

invisible Web / Web invisible Jean-Pierre Lardy (Mars 2002)
Clair, assez concis et exhaustif. A lire.

Bases Publications Le site web de la société Bases Publications.
Le sous titre de ce site est "Connaitre et bien utiliser le web visible et invisible".
On y trouve des liens et des fiches pratiques bien faites, qui n'ont toutefois pas forcément toujours un rapport avec le "web profond".

Getting the most from the Internet and Deep d'August Jackson (Juin 2005).
Un cookbook sur comment organiser une recherche sur le net, plus qu'une analyse des sources que l'on ne trouve pas avec google...

Deep Web white paper de Michael K. Bergman (Juillet 2001).
Quoique la vesion PDF soit assez illisible, cet article est très intéressant, il quantifie et qualifie de manière expérimentale le web profond. Le chiffre quantifiant le web profond de 500 plus étendu que le web "surfacique" vient de là. On y trouve également la liste des "sources profondes" sur lesquelles l'auteur a travaillé.

Crawling the hidden web de
Sriram Raghavan et Hector Garcia-Molina de Décembre 2000
(trouvé grâce Cam qu'il en soit vivement remercié).

Illuminating the web (Time) Un article assez général du Time

Llrx.com à peut être atteind l'exhaustivité du recensement de ce qui existe... On y trouve une base énorme de réferrences (à explorer). Ce site est tenu par
Marcus Zillman tout comme:

Le blog deepwebresearch.info, qui possède lui aussi de très nombreuses références.


Annotation for the Deep Web est un article écrit en Mai 2003 par
Siegfried Handschuh, Raphael Volz, Steffen Staab, qui parle de la génération automatique ou semi automatique de méta-datas.


"Sources profondes" :)

  • Sources pour trouver des "sources pofondes" Fr
URFIST un point d'entrée vers de très nombreuses ressources et qui pointe entres autres vers:
  • DADI Répertoire des bases de données scientifiques disponibles sur Internet.
Persée ("portail de revues scientifiques en sciences humaines et sociales")
APIGuide Une liste énorme de site FR non (ou pas bien) indexables sur le site.
Serveur de preprint Hébérgé par l'université de Clermont Ferrand

Sources US ou autres
La liste des sources (largest deepweb sites) utilisées par Brightplanet
The invisible web
The invisible web revealed (Une présentaion couplée d'une liste de ressources)
Science Research (Ce moteur est spécialisé dans la recherche de sources venant du monde scientifique).
AccessMylibrary (Un moteur pour bibliothécaire?)

2 commentaires:

cam a dit…

sur la possibilité de crawler (indexer) le deep-web, je te conseille la lecture de cet article Crawling the Hidden Web de Raghavan et Garcia-Molina (deux spécialistes du domaine). L'article date un peu mais il explique comment ils ont développé un crawler qui se "débrouille" avec les formulaires...

Loran Bernardi a dit…

Merci beaucoup pour le lien.
Je l'ajoute également a la liste dans le corps du message.