mardi, mai 09, 2006

Quand Google, Yahoo et Msn se lancent dans la botanique


Des chercheurs allemands, ont eu une idée étonnante.
Ils ont créé un site web composé de 2,147,483,647 pages .
Toute ces pages sont reliées à 3 pages seulement. 1 a un niveau au dessus et deux en dessous.
Il s'agit d'un arbre binaire.
Il y a une très grande profondeur a cet arbre.
Ils ont donc laissé ce site en ligne sans rien faire pendant 1 an. En conservant bien sur les logs de visites. L'objectif étant d'essayer de comprendre comment les principaux moteurs exploraient l'ensemble.

Les résultats sont très intéressants:
overall statistics by search engine

Yahoo! Google MSN
total number of pageviews 1,030,396 20,633 4,699
number of nodes crawled 105,971 7,556 1,390
percentage of tree crawled 0.0049% 0.00035% 0.000065%
number of indexed nodes 120,000 554 1
indexed/crawled ratio 113.23% 7.33% 0.07%


Ou l'on constate que le meilleur (en terme de pages vues) d'entres eux, Slurp de Yahoo,
n'a exploré que 0.0049% de l'ensemble...
(Imaginons cela à l'echelle du web, même si ce n'est pas exactement transposable...)

Les auteurs ont également constaté, que, si Yahoo est celui qui a indexé le plus de pages, il n'est pas le plus rationnel. Google semble plus cohérent, et semble respecter le pagerank même pour les visites (Plus une page à un PR élévé, plus le robot se vient la visiter souvent).

MSN semble un peu faiblard.

Une analyse des commentaires (qui étaient ouverts), et qui sont pour la plupart automatiques, a été faite. La plupart visent à vendre des médicaments. Le Viagra, est le grand gagnant.

Enfin, une corrélation entre le nombre de pages crawlées et le nombre de pages renvoyées par les interfaces de recherches existe sans doute. Yahoo annonce par exemple autour de 120 000 pages dans son cache pour l'ensemble du site.

Les auteurs notent, sournoisement, que cela n'est pas possible :

"Yahoo reported 120,000 pages in it's index (current value). This may seem impossible since it only visited 105,971 nodes, but every node is available on two different domain names: www.drunkmenworkhere.org and drunkmenworkhere.org."

Ceci est à rapprocher des études de Jean Véronis sur les comptes bidonnés de Google l'année dernière.

Google, modeste, en renvoie 550.
MSN un seul (ce qui n'est ici pas forcément un mauvais point).

L'étude est la.
Je l'ai découverte grâce à affordance.info: Arbres de connaissance (Merci)

Un seul regret, il aurait été intéressant, de savoir comment Exalead se comportait...




Aucun commentaire: