vendredi, juillet 29, 2005

msnbetter thangoogle

Un petit mot rapide pour dire que le blog de Loran soutient officiellement la candidature de
msnbetter thangoogle!!

Mais kes donc que ce truc la?

Il s'agit d'un site qui participe au concours de positionnement organisé en Pologne.

Comme j'en parlais avant hier, une problèmatique importante pour "exister" sur le net est d'être
bien classé sur certaines requêtes par les moteurs de recherche.

La règle est la suivante il faut finir premier dans google.pl (et oui c'est sur le google polonais que cela est mesuré) à une certaine date sur la requète msnbetter thangoogle.

Un détail amusant les règles étant écrites en Polonais nous ne sommes absoluement pas
surs de les respecter! ;) Mais Msnbetter thanGoogle vaincra quand même ;) !

Que le meilleur msnbetter thangoogle gagne! ;)
Mia? lepszy msnbetter thangoogle wygrywa? (zwyci??a?; zwyci?stwo)!
;)

mercredi, juillet 27, 2005

Google encore....

Les articles ci dessous décortiquent le brevet "Information retrieval based on historical data".

Ce brevet, déposé en Mars 2005, est attribué à Google.
Il est intéressant pour au moins 2 raisons:
- Les généralités et les flous qui s'y trouvent illustrent à merveille, la limite des brevets logiciels.
- Il permet de mieux comprendre les critères sur lesquels Google s'appuie pour classer un site web sur certaines requêtes.

Pour les gens extérieurs au domaine, cela peut ne pas paraitre évident (c'est en tout cas ce que les enquètes menées sur les internautes montrent), mais d'énormes sommes d'argent se jouent sur le classement des sites dans Google.

D'ou la tentation de comprendre comment on peut optimiser son site pour qu'il soit mieux classé,
et donc plus accédé par les internautes.
Puisque les internautes cherchent pour 80% (en France) d'entres eux avec Google, et qu'ils cliquent majoritairement sur les premiers liens et rarement sur ceux de la deuxième page, il convient d'être là si on a quelque chose à vendre!
C'est le coeur même du (dur) métier de SEO (Search Engine Optmizer).

Et comme Google veut d'une part garder la pertinence de ses résultats, et d'autre part vendre des publicités aux sites mal placés qui veulent avoir du traffic, on assiste à un jeu de chat et de souris entre les SEO et le moteur.

Google "invente" et brevète (parfois) des techniques pour lutter contre ce qu'il considère être du spam,
et les SEO ou tous ceux qui ont un intérêt à voir leur site bien positionné essaie de comprendre comment le moteur fonctionne....
ici donc:
Graywolf's Wolf-Howl: Google Patent Analysis

ou ici sur SEOMOZ.ORG

mardi, juillet 26, 2005

Google fait la une de Libé

Google fait la une du journal Libération...
qui remarque, un peu inquiet, que le " chiffre d'affaires publicitaire [de Google] devrait représenter 1,5 fois celui du New York Times en 2005."

Tout aussi pathétique la remarque de S.Balmer le patron de M$,
que je ne connaissais pas: "Google est une bulle sur le point d'exploser" ... C'est peut-être ce que disait les patrons d'IBM il y à 15 ans à propos de MS...

Libération : Google met la télé dans son moteur

lundi, juillet 25, 2005

manhack.net : un must

Manhack.net est un outil php développé par Jean Marc Manach

Il a, à partir d'une interface unique, recensé des centaines de sites
qui permettent d'analyser un site web sous toutes ses coutures.

A l'interface initiale un peu touffue, a été ajoutée une entrée pour débutants (?) plus simple.

On est pas loin de l'exhaustivité. Moi J'adore.
?Whois & Cie? : la veille (encore) simplifiée

samedi, juillet 23, 2005

Les couts cachés de l'offshoring

Un article qui détaille en profondeur les problèmatiques de l'offshoring (qui consiste à mettre dans un pays pas cher, tout ou partie de sa main d'oeuvre informatique) en s'appuyant sur des exemples.

L'article montre notament que le ratio de réduction de coûts à périmêtre constant, n'est pas de 20$ en Inde pour 100$ aus US.
Le ratio serait plus proche de 80$ pour 100$ après une longue période de stabilisation.
Ce qui semble effectivement plus conforme à ce que l'on constate, tristement, quotidiennement.


Hidden Costs of Offshore Outsourcing - staff transitioning and managing offshore contract may be costly - calculate hidden costs of moving jobs overseas - cultural differences can stymie best-laid contract specs - CIO Magazine Sep 1,2003

mercredi, juillet 20, 2005

Web invisible (suite)

Un papier en Francais d'une grande qualité....
je l'avais raté... mea culpa...
invisible Web / Web invisible

Mes fils RSS

L'auteur du blog BlogOKat a eu l'excellente idée de partager les fils RSS qu'il lit.

J'ai eu le plaisir de constater que pas mal d'entres eux étaient dans ma liste.

J'ai décidé de faire pareil.
Et si cela ne sert pas à quelqu'un cela me permettra au moins d'avoir un backup ;)

Comme j'utilise Sage comme lecteur RSS et que celui est complètement intégré à Firefox,
j'en profite pour partager tous mes bookmarks. Les fils RSS se trouvant sous l'entrée "Sage Feeds".

Bookmarks et FillsRss.htm

lundi, juillet 18, 2005

Le web profond (suite )

Pour faire suite au post de la semaine dernière sur le web profond
Une grosse base de base trouvée grâce au blog Totem
ici: NIST Scientific and Technical Databases - Online Scientific Databases

mercredi, juillet 13, 2005

Un article qui cartographie le Web du referendum

rtgi - réseaux, territoires & géographie de l'information - les productions

Un délice!!! à consommer sans modération!!

et des liens fort intéressants vers deux études (dont une provenant en partie d'HP :o) ):
http://www.blogpulse.com/papers/2005/AdamicGlanceBlogWWW.pdf

ou par la cité des sciences et de l'industrie:
http://www.utc.fr/rtgi/documents/WebCSTIAnalyseduDomaine.pdf

samedi, juillet 09, 2005

Le web profond (suite)

La notion de web profond (deep web) aussi appelé web invisible (invisible web) était un peu confuse dans mon esprit embrumé, je me suis plongée sur le sujet, voila ce que j'en retiens.

Wikipédia définit le web profond comme suit:

"Les ressources vers lesquelles les hyperliens sont créés dynamiquement pour répondre à une interrogation échappent aux robots d'indexation. En effet, un robot n'est pas capable d'émettre des interrogations pertinentes, aucun hyperlien n'est donc créé lors de sa visite."


Cette définition est un peu obscure... Allons voir toujours sur Wikipédia mais en anglais ce que ca dit...

"The deep web (or invisible web or hidden web) is the name given to pages on the World Wide Web that are not indexed by search engines. It consists of pages which are not linked to by other pages, such as Dynamic Web pages based on responses to database queries. The Deep Web also includes sites that require registration or otherwise limit access to their pages. It should not be confused with the term dark web or Dark internet which refers to machines or network segments not connected to the Internet. While deep web content is visible to people but not to search engines, dark internet content is accessible by neither people nor search engines."


C'est quand même plus clair!
Le web profond est donc l'ensemble des pages et documents, qui sont accessibles par les internautes, mais non accessibles aux robots d'indexations des moteurs de recherche.
Ce sont ces robots d'indexations qui permettent la constitution des indexs de recherche.

Il s'agit donc des documents, pourtant accessibles aux internautes, que l'on ne trouvera pas en cherchant dans un moteur de recherche classique (Google par exemple).

Le "web profond" s'oppose au "web surfacique".


Voilà la représentation qu'en fait BrightPlanet (les bateaux représentant les moteurs "profonds").


La limite entre web "surfacique" et web profond est bien entendue floue et changeante...
Elle dépent des moteurs et de leurs limites techniques.
Des bases s'ouvrent, les moteurs indexent de plus en plus de documents.
Ne serait que parceque certaines pages générées dynamiquement sont directement liées à partir de pages statiques exterieures.
Et puis certains formats comme le PDF, qui étaient hier "profonds", sont aujourd'hui faciles à "lire" pour les moteurs.

A contrario, l'acroissement, très rapide de la taille du web, est un problème pour les moteurs qui ont du mal à indexer complètement le contenu des tous les sites dont ils connaissent pourtant les urls d'entrées et qui n'opposent pas de problèmes techniques particuliers.
Ce problème d'indexation lié à la "profondeur" (c'est à dire à leur taille et pas à des contraintes techniques) des sites, est admis par les moteurs qui cherchent des solutions. Google a, par exemple, lancé de facon expérimentale " Google Sitemaps" .
Le webmaster fourni un plan du site en XML, qui permet au moteur d'apréhender plus facilement le contenu et les changements de structure.


Quant aux très grosses bases qui constituent le coeur du deep web, les moteurs traditionnels (Google, Yahoo, Askjeeves, Exalead, Msn) essaient de trouver des solutions pour les indexer et proposer leurs riches contenus à leurs utilisateurs (cf ces billets concernant Yahoo (lu sur le blog de yahoo) et Google (lu sur Betanews)).


Ou l'on parle du web profond (ceci n'est pas exhaustif):
Web invisible, web caché, web profond: Sur le site Intelligence center.
Il s'agit d'un dossier très complet, en francais, et clair sur le sujet (Malheureusement pas datée, mais elle semble assez récente). A lire!

invisible Web / Web invisible Jean-Pierre Lardy (Mars 2002)
Clair, assez concis et exhaustif. A lire.

Bases Publications Le site web de la société Bases Publications.
Le sous titre de ce site est "Connaitre et bien utiliser le web visible et invisible".
On y trouve des liens et des fiches pratiques bien faites, qui n'ont toutefois pas forcément toujours un rapport avec le "web profond".

Getting the most from the Internet and Deep d'August Jackson (Juin 2005).
Un cookbook sur comment organiser une recherche sur le net, plus qu'une analyse des sources que l'on ne trouve pas avec google...

Deep Web white paper de Michael K. Bergman (Juillet 2001).
Quoique la vesion PDF soit assez illisible, cet article est très intéressant, il quantifie et qualifie de manière expérimentale le web profond. Le chiffre quantifiant le web profond de 500 plus étendu que le web "surfacique" vient de là. On y trouve également la liste des "sources profondes" sur lesquelles l'auteur a travaillé.

Crawling the hidden web de
Sriram Raghavan et Hector Garcia-Molina de Décembre 2000
(trouvé grâce Cam qu'il en soit vivement remercié).

Illuminating the web (Time) Un article assez général du Time

Llrx.com à peut être atteind l'exhaustivité du recensement de ce qui existe... On y trouve une base énorme de réferrences (à explorer). Ce site est tenu par
Marcus Zillman tout comme:

Le blog deepwebresearch.info, qui possède lui aussi de très nombreuses références.


Annotation for the Deep Web est un article écrit en Mai 2003 par
Siegfried Handschuh, Raphael Volz, Steffen Staab, qui parle de la génération automatique ou semi automatique de méta-datas.


"Sources profondes" :)

  • Sources pour trouver des "sources pofondes" Fr
URFIST un point d'entrée vers de très nombreuses ressources et qui pointe entres autres vers:
  • DADI Répertoire des bases de données scientifiques disponibles sur Internet.
Persée ("portail de revues scientifiques en sciences humaines et sociales")
APIGuide Une liste énorme de site FR non (ou pas bien) indexables sur le site.
Serveur de preprint Hébérgé par l'université de Clermont Ferrand

Sources US ou autres
La liste des sources (largest deepweb sites) utilisées par Brightplanet
The invisible web
The invisible web revealed (Une présentaion couplée d'une liste de ressources)
Science Research (Ce moteur est spécialisé dans la recherche de sources venant du monde scientifique).
AccessMylibrary (Un moteur pour bibliothécaire?)

vendredi, juillet 08, 2005

inurl:"ViewerFrame?Mode=" dans Google

Pour faire suite a ce billet écrit cet hiver, une nouvelle signature,
Et de nouvelles cameras apparaissent....
Recherche Google: inurl:"ViewerFrame?Mode="

mercredi, juillet 06, 2005

La presse traditionnelle n'existera plus en 2014!

C'est du moins une anticipation faite par "The Museum of Media History" ici:
EPIC 2014 en français

Je suis définitivement pessimiste et nombriliste mais je n'arrive pas à dissocier cette information du billet que j'ai posté hier: "L'avenir est-il aux technologies de l'information"?

mardi, juillet 05, 2005

"L'avenir est-il aux technologies de l'information ?"

C'est sous ce titre que Francis Pisani sur son très sérieux et documenté blog a écrit, il y a deux mois un article qui m'a marqué.

On y lit:
"Je commence à percevoir [les sciences de la vie] comme représentant l'avenir alors que les technologies
de l'information et de la communication ne seraient plus que le présent."


Cela souligne que les dernière avancées des sciences de la vie ou des nanotechnologies, comme les clônes (Dolly), ou ce qu'en prédisent
les films/Revues de sciences fictions, nous laissent entrevoir de phénoménales transformations du monde qui nous entoure.

C'est troublant. Si ces technologies s'avérent aussi prolifiques en changements que les TICs, il va devenir difficile de suivre le rythme du changement!
Que l'on y songe, il y a 15 ans Internet n'existait pas! Pas plus que les téléphones mobiles,
Et la vague des PCs commencait tout juste....

En si peu de temps, les TICs (plus particulièrement l'Internet) ont transformé et continuent de transformer quasiment tous les métiers( de l'informatique -et oui!- , en passant par le journalisme, la banque, l'éducation, la vente, l'architecture, la chirurgie, le métier de bibliothécaire, le transport...),
cela a également transformé une bonne partie de notre rapport à la connaissance (combien de personnes ouvrent encore un vieux dictionnaire papier?).
Et que dire des Loisirs? Les jeux, les voyages, les emplettes...

Plus étonnant, les évolutions techniques ont permis de créer des nouvelles formes d'organisations (cf cet essai passionnant d'E. Raymond sur Linux: La cathédrale et le Bazaar ),
qui ont elle même engendrées de nouvelles facons de gérer et d'exposer la connaissance (Le meilleur exemple est peut-être Wikipédia).

Toute la société, petit à petit se transforme! L'essence même de toutes les relations sociales changent.
En m'avançant un peu, on passe d'un monde d'émission (Des dominants vers les autres, le JT en est un bon exemple) à un monde de discussion ( Les Blogs, Forums...).

Et cela génére des résultats destabilisants pour l'appareil politique et médiatique en place (le non au référendum en est un exemple)...

Et cette liste de transformations constatables, pas toujours digérées n'est pas, très loin sans faux, exhaustive!

Et voila qu'on nous décrit d'autres modifications induites par les TICs pour demain (cf cet article du Monde: "Comment eBay révolutionne la création d'entreprises").

Et cette étude du nombre de sites web faites par Netcraft confirme que le mouvement s'accélère! Ceci annonce de forts tremblements de souris pour après-demain...


Et Pisani, un spécialiste du domaine nous explique que tout cela n'est plus que le présent, et que cela n'est rien par rapport a ce qui nous attend !!?!!


Vu les répercussions de ces transformations sur la planète et les dégats sociaux induits par ces changements très rapides, j'en viens à me dire que Bill Joy, le co-fondateur de Sun Microsystems, a raison, le futur n'a peut être pas besoin de nous...

lundi, juillet 04, 2005

Fin de la greve chez Amen

J'avais, il y a quelque temps, évoqué la grève des employés de la société Amen.
On apprend, toujours sur le blog AMEN EN GREVE :-( que la reprise du travail a eu lieu.

L'écho autour du blog n'y est peut être pas pour rien...

vendredi, juillet 01, 2005

Je suis seul !!!

On savait que certains recherchaient mi-amusés mi-impressionés Dieu à travers Google.
Cet article, nous apprends, que de plus en plus d'internautes, jettent comme on jette une bouteille à la mer, leur solitude ou leur mal-être en pâture a Google.

Je suis seul, y'a quelqu'un? , recherche amitié désespérement, seront peut-être demain les adwords les plus prisés.
Quoi d'étonnant à cela? Tous ces blogs intimes ou pas, tournés vers le web, ne sont il pas déja un premier pas vers cette pythieifiction ;) du moteur de recherche?

Le web profond

Un papier, un peu ancien, sur le "web profond".

Le "deep Web" aussi appelé "web invisible" est l'ensemble des documents accessibles, mais difficilement trouvables car ils ne sont pas indexés par les moteurs de recherche classiques.
Moteurs, qui n'indexent "que", les contenus sur lesquels pointent une url, provenant d'une page elle même indexée. Ce qui exclut, les bases qu'il faut interroger dynamiquement ( à la liste de sites US que l'on trouve dans l'article, on pourrait ajouter ce, malheureusement, célèbre exemple bien de chez nous qu'est Gallica).
Un papier interessant donc ci apres:
BrightPlanet? ? Deep Web White Paper