Wikipédia définit le web profond comme suit:
"Les ressources vers lesquelles les hyperliens sont créés dynamiquement pour répondre à une interrogation échappent aux robots d'indexation. En effet, un robot n'est pas capable d'émettre des interrogations pertinentes, aucun hyperlien n'est donc créé lors de sa visite."
Cette définition est un peu obscure... Allons voir toujours sur Wikipédia mais en anglais ce que ca dit...
C'est quand même plus clair!
"The deep web (or invisible web or hidden web) is the name given to pages on the World Wide Web that are not indexed by search engines. It consists of pages which are not linked to by other pages, such as Dynamic Web pages based on responses to database queries. The Deep Web also includes sites that require registration or otherwise limit access to their pages. It should not be confused with the term dark web or Dark internet which refers to machines or network segments not connected to the Internet. While deep web content is visible to people but not to search engines, dark internet content is accessible by neither people nor search engines."
Le web profond est donc l'ensemble des pages et documents, qui sont accessibles par les internautes, mais non accessibles aux robots d'indexations des moteurs de recherche.
Ce sont ces robots d'indexations qui permettent la constitution des indexs de recherche.
Il s'agit donc des documents, pourtant accessibles aux internautes, que l'on ne trouvera pas en cherchant dans un moteur de recherche classique (Google par exemple).
Le "web profond" s'oppose au "web surfacique".
La limite entre web "surfacique" et web profond est bien entendue floue et changeante...
Elle dépent des moteurs et de leurs limites techniques.
Des bases s'ouvrent, les moteurs indexent de plus en plus de documents.
Ne serait que parceque certaines pages générées dynamiquement sont directement liées à partir de pages statiques exterieures.
Et puis certains formats comme le PDF, qui étaient hier "profonds", sont aujourd'hui faciles à "lire" pour les moteurs.
A contrario, l'acroissement, très rapide de la taille du web, est un problème pour les moteurs qui ont du mal à indexer complètement le contenu des tous les sites dont ils connaissent pourtant les urls d'entrées et qui n'opposent pas de problèmes techniques particuliers.
Ce problème d'indexation lié à la "profondeur" (c'est à dire à leur taille et pas à des contraintes techniques) des sites, est admis par les moteurs qui cherchent des solutions. Google a, par exemple, lancé de facon expérimentale " Google Sitemaps" .
Le webmaster fourni un plan du site en XML, qui permet au moteur d'apréhender plus facilement le contenu et les changements de structure.
Quant aux très grosses bases qui constituent le coeur du deep web, les moteurs traditionnels (Google, Yahoo, Askjeeves, Exalead, Msn) essaient de trouver des solutions pour les indexer et proposer leurs riches contenus à leurs utilisateurs (cf ces billets concernant Yahoo (lu sur le blog de yahoo) et Google (lu sur Betanews)).
Ou l'on parle du web profond (ceci n'est pas exhaustif):
Web invisible, web caché, web profond: Sur le site Intelligence center.
Il s'agit d'un dossier très complet, en francais, et clair sur le sujet (Malheureusement pas datée, mais elle semble assez récente). A lire!
invisible Web / Web invisible Jean-Pierre Lardy (Mars 2002)
Clair, assez concis et exhaustif. A lire.
Bases Publications Le site web de la société Bases Publications.
Le sous titre de ce site est "Connaitre et bien utiliser le web visible et invisible".
On y trouve des liens et des fiches pratiques bien faites, qui n'ont toutefois pas forcément toujours un rapport avec le "web profond".
Getting the most from the Internet and Deep d'August Jackson (Juin 2005).
Un cookbook sur comment organiser une recherche sur le net, plus qu'une analyse des sources que l'on ne trouve pas avec google...
Deep Web white paper de Sriram Raghavan et Hector Garcia-Molina de Décembre 2000
(trouvé grâce Cam qu'il en soit vivement remercié).
Marcus Zillman tout comme:
Le blog deepwebresearch.info, qui possède lui aussi de très nombreuses références.
Siegfried Handschuh, Raphael Volz, Steffen Staab, qui parle de la génération automatique ou semi automatique de méta-datas.
"Sources profondes" :)
- Sources pour trouver des "sources pofondes" Fr
- DADI Répertoire des bases de données scientifiques disponibles sur Internet.