Un petit mot rapide pour dire que le blog de Loran soutient officiellement la candidature de
msnbetter thangoogle!!
Mais kes donc que ce truc la?
Il s'agit d'un site qui participe au concours de positionnement organisé en Pologne.
Comme j'en parlais avant hier, une problèmatique importante pour "exister" sur le net est d'être
bien classé sur certaines requêtes par les moteurs de recherche.
La règle est la suivante il faut finir premier dans google.pl (et oui c'est sur le google polonais que cela est mesuré) à une certaine date sur la requète msnbetter thangoogle.
Un détail amusant les règles étant écrites en Polonais nous ne sommes absoluement pas
surs de les respecter! ;) Mais Msnbetter thanGoogle vaincra quand même ;) !
Que le meilleur msnbetter thangoogle gagne! ;)
Mia? lepszy msnbetter thangoogle wygrywa? (zwyci??a?; zwyci?stwo)!
;)
vendredi, juillet 29, 2005
mercredi, juillet 27, 2005
Google encore....
Les articles ci dessous décortiquent le brevet "Information retrieval based on historical data".
Ce brevet, déposé en Mars 2005, est attribué à Google.
Il est intéressant pour au moins 2 raisons:
- Les généralités et les flous qui s'y trouvent illustrent à merveille, la limite des brevets logiciels.
- Il permet de mieux comprendre les critères sur lesquels Google s'appuie pour classer un site web sur certaines requêtes.
Pour les gens extérieurs au domaine, cela peut ne pas paraitre évident (c'est en tout cas ce que les enquètes menées sur les internautes montrent), mais d'énormes sommes d'argent se jouent sur le classement des sites dans Google.
D'ou la tentation de comprendre comment on peut optimiser son site pour qu'il soit mieux classé,
et donc plus accédé par les internautes.
Puisque les internautes cherchent pour 80% (en France) d'entres eux avec Google, et qu'ils cliquent majoritairement sur les premiers liens et rarement sur ceux de la deuxième page, il convient d'être là si on a quelque chose à vendre!
C'est le coeur même du (dur) métier de SEO (Search Engine Optmizer).
Et comme Google veut d'une part garder la pertinence de ses résultats, et d'autre part vendre des publicités aux sites mal placés qui veulent avoir du traffic, on assiste à un jeu de chat et de souris entre les SEO et le moteur.
Google "invente" et brevète (parfois) des techniques pour lutter contre ce qu'il considère être du spam,
et les SEO ou tous ceux qui ont un intérêt à voir leur site bien positionné essaie de comprendre comment le moteur fonctionne....
ici donc:
Graywolf's Wolf-Howl: Google Patent Analysis
ou ici sur SEOMOZ.ORG
Ce brevet, déposé en Mars 2005, est attribué à Google.
Il est intéressant pour au moins 2 raisons:
- Les généralités et les flous qui s'y trouvent illustrent à merveille, la limite des brevets logiciels.
- Il permet de mieux comprendre les critères sur lesquels Google s'appuie pour classer un site web sur certaines requêtes.
Pour les gens extérieurs au domaine, cela peut ne pas paraitre évident (c'est en tout cas ce que les enquètes menées sur les internautes montrent), mais d'énormes sommes d'argent se jouent sur le classement des sites dans Google.
D'ou la tentation de comprendre comment on peut optimiser son site pour qu'il soit mieux classé,
et donc plus accédé par les internautes.
Puisque les internautes cherchent pour 80% (en France) d'entres eux avec Google, et qu'ils cliquent majoritairement sur les premiers liens et rarement sur ceux de la deuxième page, il convient d'être là si on a quelque chose à vendre!
C'est le coeur même du (dur) métier de SEO (Search Engine Optmizer).
Et comme Google veut d'une part garder la pertinence de ses résultats, et d'autre part vendre des publicités aux sites mal placés qui veulent avoir du traffic, on assiste à un jeu de chat et de souris entre les SEO et le moteur.
Google "invente" et brevète (parfois) des techniques pour lutter contre ce qu'il considère être du spam,
et les SEO ou tous ceux qui ont un intérêt à voir leur site bien positionné essaie de comprendre comment le moteur fonctionne....
ici donc:
Graywolf's Wolf-Howl: Google Patent Analysis
ou ici sur SEOMOZ.ORG
mardi, juillet 26, 2005
Google fait la une de Libé
Google fait la une du journal Libération...
qui remarque, un peu inquiet, que le " chiffre d'affaires publicitaire [de Google] devrait représenter 1,5 fois celui du New York Times en 2005."
Tout aussi pathétique la remarque de S.Balmer le patron de M$,
que je ne connaissais pas: "Google est une bulle sur le point d'exploser" ... C'est peut-être ce que disait les patrons d'IBM il y à 15 ans à propos de MS...
Libération : Google met la télé dans son moteur
qui remarque, un peu inquiet, que le " chiffre d'affaires publicitaire [de Google] devrait représenter 1,5 fois celui du New York Times en 2005."
Tout aussi pathétique la remarque de S.Balmer le patron de M$,
que je ne connaissais pas: "Google est une bulle sur le point d'exploser" ... C'est peut-être ce que disait les patrons d'IBM il y à 15 ans à propos de MS...
Libération : Google met la télé dans son moteur
lundi, juillet 25, 2005
manhack.net : un must
Manhack.net est un outil php développé par Jean Marc Manach
Il a, à partir d'une interface unique, recensé des centaines de sites
qui permettent d'analyser un site web sous toutes ses coutures.
A l'interface initiale un peu touffue, a été ajoutée une entrée pour débutants (?) plus simple.
On est pas loin de l'exhaustivité. Moi J'adore.
?Whois & Cie? : la veille (encore) simplifiée
Il a, à partir d'une interface unique, recensé des centaines de sites
qui permettent d'analyser un site web sous toutes ses coutures.
A l'interface initiale un peu touffue, a été ajoutée une entrée pour débutants (?) plus simple.
On est pas loin de l'exhaustivité. Moi J'adore.
?Whois & Cie? : la veille (encore) simplifiée
samedi, juillet 23, 2005
Les couts cachés de l'offshoring
Un article qui détaille en profondeur les problèmatiques de l'offshoring (qui consiste à mettre dans un pays pas cher, tout ou partie de sa main d'oeuvre informatique) en s'appuyant sur des exemples.
L'article montre notament que le ratio de réduction de coûts à périmêtre constant, n'est pas de 20$ en Inde pour 100$ aus US.
Le ratio serait plus proche de 80$ pour 100$ après une longue période de stabilisation.
Ce qui semble effectivement plus conforme à ce que l'on constate, tristement, quotidiennement.
Hidden Costs of Offshore Outsourcing - staff transitioning and managing offshore contract may be costly - calculate hidden costs of moving jobs overseas - cultural differences can stymie best-laid contract specs - CIO Magazine Sep 1,2003
L'article montre notament que le ratio de réduction de coûts à périmêtre constant, n'est pas de 20$ en Inde pour 100$ aus US.
Le ratio serait plus proche de 80$ pour 100$ après une longue période de stabilisation.
Ce qui semble effectivement plus conforme à ce que l'on constate, tristement, quotidiennement.
Hidden Costs of Offshore Outsourcing - staff transitioning and managing offshore contract may be costly - calculate hidden costs of moving jobs overseas - cultural differences can stymie best-laid contract specs - CIO Magazine Sep 1,2003
mercredi, juillet 20, 2005
Web invisible (suite)
Un papier en Francais d'une grande qualité....
je l'avais raté... mea culpa...
invisible Web / Web invisible
je l'avais raté... mea culpa...
invisible Web / Web invisible
Mes fils RSS
L'auteur du blog BlogOKat a eu l'excellente idée de partager les fils RSS qu'il lit.
J'ai eu le plaisir de constater que pas mal d'entres eux étaient dans ma liste.
J'ai décidé de faire pareil.
Et si cela ne sert pas à quelqu'un cela me permettra au moins d'avoir un backup ;)
Comme j'utilise Sage comme lecteur RSS et que celui est complètement intégré à Firefox,
j'en profite pour partager tous mes bookmarks. Les fils RSS se trouvant sous l'entrée "Sage Feeds".
Bookmarks et FillsRss.htm
J'ai eu le plaisir de constater que pas mal d'entres eux étaient dans ma liste.
J'ai décidé de faire pareil.
Et si cela ne sert pas à quelqu'un cela me permettra au moins d'avoir un backup ;)
Comme j'utilise Sage comme lecteur RSS et que celui est complètement intégré à Firefox,
j'en profite pour partager tous mes bookmarks. Les fils RSS se trouvant sous l'entrée "Sage Feeds".
Bookmarks et FillsRss.htm
lundi, juillet 18, 2005
Le web profond (suite )
Pour faire suite au post de la semaine dernière sur le web profond
Une grosse base de base trouvée grâce au blog Totem
ici: NIST Scientific and Technical Databases - Online Scientific Databases
Une grosse base de base trouvée grâce au blog Totem
ici: NIST Scientific and Technical Databases - Online Scientific Databases
mercredi, juillet 13, 2005
Un article qui cartographie le Web du referendum
rtgi - réseaux, territoires & géographie de l'information - les productions
Un délice!!! à consommer sans modération!!
et des liens fort intéressants vers deux études (dont une provenant en partie d'HP :o) ):
http://www.blogpulse.com/papers/2005/AdamicGlanceBlogWWW.pdf
ou par la cité des sciences et de l'industrie:
http://www.utc.fr/rtgi/documents/WebCSTIAnalyseduDomaine.pdf
Un délice!!! à consommer sans modération!!
et des liens fort intéressants vers deux études (dont une provenant en partie d'HP :o) ):
http://www.blogpulse.com/papers/2005/AdamicGlanceBlogWWW.pdf
ou par la cité des sciences et de l'industrie:
http://www.utc.fr/rtgi/documents/WebCSTIAnalyseduDomaine.pdf
samedi, juillet 09, 2005
Le web profond (suite)
La notion de web profond (deep web) aussi appelé web invisible (invisible web) était un peu confuse dans mon esprit embrumé, je me suis plongée sur le sujet, voila ce que j'en retiens.
Wikipédia définit le web profond comme suit:
Cette définition est un peu obscure... Allons voir toujours sur Wikipédia mais en anglais ce que ca dit...
Le web profond est donc l'ensemble des pages et documents, qui sont accessibles par les internautes, mais non accessibles aux robots d'indexations des moteurs de recherche.
Ce sont ces robots d'indexations qui permettent la constitution des indexs de recherche.
Il s'agit donc des documents, pourtant accessibles aux internautes, que l'on ne trouvera pas en cherchant dans un moteur de recherche classique (Google par exemple).
Le "web profond" s'oppose au "web surfacique".
La limite entre web "surfacique" et web profond est bien entendue floue et changeante...
Elle dépent des moteurs et de leurs limites techniques.
Des bases s'ouvrent, les moteurs indexent de plus en plus de documents.
Ne serait que parceque certaines pages générées dynamiquement sont directement liées à partir de pages statiques exterieures.
Et puis certains formats comme le PDF, qui étaient hier "profonds", sont aujourd'hui faciles à "lire" pour les moteurs.
A contrario, l'acroissement, très rapide de la taille du web, est un problème pour les moteurs qui ont du mal à indexer complètement le contenu des tous les sites dont ils connaissent pourtant les urls d'entrées et qui n'opposent pas de problèmes techniques particuliers.
Ce problème d'indexation lié à la "profondeur" (c'est à dire à leur taille et pas à des contraintes techniques) des sites, est admis par les moteurs qui cherchent des solutions. Google a, par exemple, lancé de facon expérimentale " Google Sitemaps" .
Le webmaster fourni un plan du site en XML, qui permet au moteur d'apréhender plus facilement le contenu et les changements de structure.
Quant aux très grosses bases qui constituent le coeur du deep web, les moteurs traditionnels (Google, Yahoo, Askjeeves, Exalead, Msn) essaient de trouver des solutions pour les indexer et proposer leurs riches contenus à leurs utilisateurs (cf ces billets concernant Yahoo (lu sur le blog de yahoo) et Google (lu sur Betanews)).
Ou l'on parle du web profond (ceci n'est pas exhaustif):
Web invisible, web caché, web profond: Sur le site Intelligence center.
Il s'agit d'un dossier très complet, en francais, et clair sur le sujet (Malheureusement pas datée, mais elle semble assez récente). A lire!
invisible Web / Web invisible Jean-Pierre Lardy (Mars 2002)
Clair, assez concis et exhaustif. A lire.
Bases Publications Le site web de la société Bases Publications.
Le sous titre de ce site est "Connaitre et bien utiliser le web visible et invisible".
On y trouve des liens et des fiches pratiques bien faites, qui n'ont toutefois pas forcément toujours un rapport avec le "web profond".
Getting the most from the Internet and Deep d'August Jackson (Juin 2005).
Un cookbook sur comment organiser une recherche sur le net, plus qu'une analyse des sources que l'on ne trouve pas avec google...
Deep Web white paper de Michael K. Bergman (Juillet 2001).
Quoique la vesion PDF soit assez illisible, cet article est très intéressant, il quantifie et qualifie de manière expérimentale le web profond. Le chiffre quantifiant le web profond de 500 plus étendu que le web "surfacique" vient de là. On y trouve également la liste des "sources profondes" sur lesquelles l'auteur a travaillé.
Crawling the hidden web de Sriram Raghavan et Hector Garcia-Molina de Décembre 2000
(trouvé grâce Cam qu'il en soit vivement remercié).
Illuminating the web (Time) Un article assez général du Time
Llrx.com à peut être atteind l'exhaustivité du recensement de ce qui existe... On y trouve une base énorme de réferrences (à explorer). Ce site est tenu par Marcus Zillman tout comme:
Le blog deepwebresearch.info, qui possède lui aussi de très nombreuses références.
Annotation for the Deep Web est un article écrit en Mai 2003 par Siegfried Handschuh, Raphael Volz, Steffen Staab, qui parle de la génération automatique ou semi automatique de méta-datas.
"Sources profondes" :)
Wikipédia définit le web profond comme suit:
"Les ressources vers lesquelles les hyperliens sont créés dynamiquement pour répondre à une interrogation échappent aux robots d'indexation. En effet, un robot n'est pas capable d'émettre des interrogations pertinentes, aucun hyperlien n'est donc créé lors de sa visite."
Cette définition est un peu obscure... Allons voir toujours sur Wikipédia mais en anglais ce que ca dit...
C'est quand même plus clair!
"The deep web (or invisible web or hidden web) is the name given to pages on the World Wide Web that are not indexed by search engines. It consists of pages which are not linked to by other pages, such as Dynamic Web pages based on responses to database queries. The Deep Web also includes sites that require registration or otherwise limit access to their pages. It should not be confused with the term dark web or Dark internet which refers to machines or network segments not connected to the Internet. While deep web content is visible to people but not to search engines, dark internet content is accessible by neither people nor search engines."
Le web profond est donc l'ensemble des pages et documents, qui sont accessibles par les internautes, mais non accessibles aux robots d'indexations des moteurs de recherche.
Ce sont ces robots d'indexations qui permettent la constitution des indexs de recherche.
Il s'agit donc des documents, pourtant accessibles aux internautes, que l'on ne trouvera pas en cherchant dans un moteur de recherche classique (Google par exemple).
Le "web profond" s'oppose au "web surfacique".
La limite entre web "surfacique" et web profond est bien entendue floue et changeante...
Elle dépent des moteurs et de leurs limites techniques.
Des bases s'ouvrent, les moteurs indexent de plus en plus de documents.
Ne serait que parceque certaines pages générées dynamiquement sont directement liées à partir de pages statiques exterieures.
Et puis certains formats comme le PDF, qui étaient hier "profonds", sont aujourd'hui faciles à "lire" pour les moteurs.
A contrario, l'acroissement, très rapide de la taille du web, est un problème pour les moteurs qui ont du mal à indexer complètement le contenu des tous les sites dont ils connaissent pourtant les urls d'entrées et qui n'opposent pas de problèmes techniques particuliers.
Ce problème d'indexation lié à la "profondeur" (c'est à dire à leur taille et pas à des contraintes techniques) des sites, est admis par les moteurs qui cherchent des solutions. Google a, par exemple, lancé de facon expérimentale " Google Sitemaps" .
Le webmaster fourni un plan du site en XML, qui permet au moteur d'apréhender plus facilement le contenu et les changements de structure.
Quant aux très grosses bases qui constituent le coeur du deep web, les moteurs traditionnels (Google, Yahoo, Askjeeves, Exalead, Msn) essaient de trouver des solutions pour les indexer et proposer leurs riches contenus à leurs utilisateurs (cf ces billets concernant Yahoo (lu sur le blog de yahoo) et Google (lu sur Betanews)).
Ou l'on parle du web profond (ceci n'est pas exhaustif):
Web invisible, web caché, web profond: Sur le site Intelligence center.
Il s'agit d'un dossier très complet, en francais, et clair sur le sujet (Malheureusement pas datée, mais elle semble assez récente). A lire!
invisible Web / Web invisible Jean-Pierre Lardy (Mars 2002)
Clair, assez concis et exhaustif. A lire.
Bases Publications Le site web de la société Bases Publications.
Le sous titre de ce site est "Connaitre et bien utiliser le web visible et invisible".
On y trouve des liens et des fiches pratiques bien faites, qui n'ont toutefois pas forcément toujours un rapport avec le "web profond".
Getting the most from the Internet and Deep d'August Jackson (Juin 2005).
Un cookbook sur comment organiser une recherche sur le net, plus qu'une analyse des sources que l'on ne trouve pas avec google...
Deep Web white paper de Michael K. Bergman (Juillet 2001).
Quoique la vesion PDF soit assez illisible, cet article est très intéressant, il quantifie et qualifie de manière expérimentale le web profond. Le chiffre quantifiant le web profond de 500 plus étendu que le web "surfacique" vient de là. On y trouve également la liste des "sources profondes" sur lesquelles l'auteur a travaillé.
Crawling the hidden web de Sriram Raghavan et Hector Garcia-Molina de Décembre 2000
(trouvé grâce Cam qu'il en soit vivement remercié).
Illuminating the web (Time) Un article assez général du Time
Llrx.com à peut être atteind l'exhaustivité du recensement de ce qui existe... On y trouve une base énorme de réferrences (à explorer). Ce site est tenu par Marcus Zillman tout comme:
Le blog deepwebresearch.info, qui possède lui aussi de très nombreuses références.
Annotation for the Deep Web est un article écrit en Mai 2003 par Siegfried Handschuh, Raphael Volz, Steffen Staab, qui parle de la génération automatique ou semi automatique de méta-datas.
"Sources profondes" :)
- Sources pour trouver des "sources pofondes" Fr
- DADI Répertoire des bases de données scientifiques disponibles sur Internet.