BdD des Sciences d’Information

Accueil du site > Veille > "Au moins 60 milliards de pages dont un tiers recensées par les (...)

"Au moins 60 milliards de pages dont un tiers recensées par les moteurs"

Dominique Filippone

vendredi 21 juillet 2006, par anass


Les auteures du guide Net Recherche dressent l’état des lieux des outils et techniques de recherche sur Internet. Une photographie d’une science en perpétuelle mouvement.

D’où vous est venue l’idée de ce livre ?

Véronique Mesguich et Armelle Thomas. De notre expérience commune de formatrices et de professionnelles de la recherche d’informations. Nous voulions rendre compte de l’évolution des outils de recherche et de l’émergence du web social et montrer la multitude d’outils et de solutions existantes sur le Web. Et sur l’Internet de façon plus générale.

A-t-on une idée précise du nombre de pages existantes aujourd’hui sur Internet ?

Non : il est très difficile d’estimer le nombre de pages, en raison du développement du Web dynamique, et du manque d’études fiables sur le sujet. On estime actuellement (très grossièrement) à au moins une soixantaine de milliards, sachant que les grands moteurs en indexeraient environ 20 milliards. Mais cela reste peut-être très en deçà de la réalité.

Face à cette prolifération des pages consultables, comment vérifier la véracité de l’information ?

Il s’agit essentiellement de vérifier la validité de l’information en allant déjà valider la source dont elle est issue. Ensuite, recouper l’information à partir de plusieurs sources. Ce qui n’est pas toujours une garantie, dans la mesure où les sources se citent souvent entre elles...

Existe-t-il des différences techniques entre les annuaires, les moteurs et les métamoteurs ?

Les annuaires sont produits par des personnes sur la base de classifications pré-établies. Les moteurs travaillent de manière automatique en indexant le texte intégral des pages. Les méta-moteurs, quant à eux, ne maintiennent pas d’index, mais permettent de rechercher simultanément dans les index de plusieurs outils. On constate une baisse très importante de l’utilisation et de la maintenance/mise à jour des grands annuaires généralistes. Les moteurs sont rois...

Que pensez-vous de la cartographie de l’information sur Internet (grise / blanche...) ?

Je pense que cette distinction est davantage liée au circuit éditorial traditionnel. On peut trouver sur le web toute la gamme des nuances : blanc (ouvert), gris (semi-ouvert) et noir (théoriquement non accessible).

La recherche sur des moteurs spécialisés tels que LawCrawler est-elle forcément plus pertinente que sur un moteur généraliste ?

Oui, si la pertinence est liée à la sélection des sources faite en amont par le producteur de l’outil. On peut aussi dire que ces types de moteurs spécialisés sont souvent plus à même de prendre en compte les ressources du web invisible, non indexable par les moteurs classiques.

Qu’appelez-vous dans votre livre le « Web invisible » ?

Cela correspond à l’ensemble des pages non localisables et/ou non indexables par les moteurs de recherche "classiques". Cela procède de raisons techniques diverses : pages dynamiques, format différent du html classique, pages protégées par mot de passe ou issues de l’interrogation de bases de données via des formulaires (le cas le plus fréquent).

A noter que cette notion de Web invisible évolue dans le temps, et que les grands moteurs sont désormais capables de collecter des pages dynamiques ou de nature complexe.

Comment accéder à ce Web invisible ?

D’abord, par la connaissance des sources puisqu’il est dans ce cas possible de les interroger directement (une base de données par exemple). Des répertoires de bases de données ou de grands portails spécialisés peuvent permettre d’identifier des gisements d’information spécialisée. Des méta-moteurs spécialisés (Copernic, Digimind) proposent par ailleurs une interrogation de sources de type "web invisible", mais ces outils ne sont pas toujours gratuits.

Comment rechercher de l’information sur les blogs et s’assurer de la fiabilité des informations ?

Rappelons d’abord que le contenu des blogs fait partie du web. Les moteurs permettent donc d’accéder à leur contenu (les blogs sont d’ailleurs souvent bien classés dans les résultats de ces moteurs). A côté, il existe des outils spécialisés comme Technorati ou BLogpulse, qui n’indexent que les messages provenant de blogs.

Quant à la fiabilité, c’est à l’utilisateur de faire preuve d’esprit critique, dans la mesure où la blogosphère recense une gamme d’éditeurs encore plus étendue et diverse que sur les sites traditionnels. On y trouvera certainement tous les arguments et contre-arguments sur toutes les questions...

Avez-vous exploré les recherches sur les contenus liés aux fils RSS ?

Les contenus accessibles via les technologies RSS sont globalement identiques aux contenus Web : c’est le mode de diffusion et de consommation qui change...Les flux RSS seront globalement plus utilisés dans la cadre d’une veille que d’une recherche classique.

Pourra t-on voir très prochainement des moteurs de recherche sur les flux RSS ?

Cela existe déjà...Feedster par exemple permet d’effectuer une recherche sur environ 30 millions de flux RSS, soit 150 millions de notes.

En quoi les flux RSS sont-ils un complément à la recherche via les outils classiques de recherche sur Internet ?

Il s’agit plutôt d’une simplification que d’un complément : le RSS permet de recevoir automatiquement les nouveautés publiées sur un site, sans avoir besoin de penser à le consulter. On rejoint le principe du "push", de la diffusion d’informations sur abonnement, avec la possibilité pour l’utilisateur de choisir les flux qu’il souhaite rassembler ou syndiquer.

Que pensez-vous du projet Quaero ?

Concernant Quaero, ne confondons pas l’outil et le contenu...L’idée d’un moteur multimédia est intéressante, mais il est clair qu’il y a actuellement un déficit important de communication sur le projet qui apparaît plus comme un projet de recherche alors qu’il avait été présenté comme un "concurrent" potentiel de Google.

Que pensez-vous de l’initiative visant à financer le moteur de recherche Exalead ? A-t-elle une réelle chance d’aboutir à un concurrent de Google ?

On attend avec impatience les premières réalisations concrètes de Quaero ! Un des acteurs moteurs du projet, Exalead, propose déjà sur le Web un moteur à la technologie innovante. François Bourdoncle [ndlr : le Pdg D’Exalead] lui même affirme l’inverse et insiste sur la dimension "indexation et recherche multimédia" du projet.

Nous ne pensons pas qu’il soit nécessaire forcément de vouloir développer un concurrent de Google. Le blog de Loïc LeMeur revient également sur les "10 raisons pour lesquelles Quaero ne marchera pas". On y retrouve des commentaires fort intéressants !

Qu’appelle-t-on Web sémantique ?

Le concept de Web sémantique repose sur l’idée d’une possibilité de recherche basée sur le sens des mots. Le Web sémantique permet d’ajouter une couche de méta-données aux informations existantes. Les ontologies (systèmes d’organisation des connaissances sur un ensemble d’objets et de concepts) permettent de constituer une base de connaissance exploitée par des agents logiciels.

En clair, on peut dire que le Web sémantique permettrait aux éditeurs de contenus de mieux décrire leurs contenus, pour permettre aux outils de mieux les retrouver. Il faut préciser que, pour l’instant, il existe peu de réalisations dans le domaine, et ce n’est pas la direction que semblent prendre les outils de recherche, et notamment ceux destinés au grand public. Il existe néanmoins quelques réalisations dans des domaines spécifiques : médical, scientifique, musical, etc.

Des adaptations des pages seront-elles nécessaires à l’adoption du Web sémantique par les outils de recherche ?

Oui. L’adoption d’un langage plus évolué sera nécessaire (XML au lieu d’HTML) tant pour le contenu de la page que pour sa description.

En quoi le Web 2.0 risque de changer la structure de l’information sur Internet ?

Le Web 2.0 constitue une évolution des usages plutôt qu’une révolution de structures...Cela dit, le web 2.0 permet de tirer davantage parti de la structure réticulaire d’Internet et de l’effet réseau (interactivité, partage, réactivité, collaboration...)

Les moteurs se classent-ils en différentes générations. Si oui, quelles différences entre eux ?

A l’heure actuelle il en existe trois. La première, à laquelle appartiennent des outils comme Altavista, Hotbot ou Lycos sont des outils qui ont évolué vers des portails généralistes, caractérisés par des algorithmes de pertinence assez basiques. La deuxième génération (Google et ses clones) est en rupture avec la première génération du fait d’algorithmes basés sur la popularité des pages, et le recentrage sur la fonction de recherche.

Exalead, Kartoo, Ask, Mozbot sont les outils dits de troisième génération. Ils n’entrent pas en concurrence avec la génération précédente mais la complètent : ils proposent une interface ou des fonctionnalités originales (cartographie, classification automatique, personnalisation, recherche contextuelle...). On attend encore la quatrième génération...

Les principaux moteurs se livrent une guerre féroce à coup de nouveautés. Quels outils sont vraiment utiles à la recherche ?

Finalement, on a assez peu de nouveaux outils généralistes, le ticket d’entrée étant aujourd’hui assez élevé (n’importe qui ne peut pas aujourd’hui créer un nouveau moteur dans un garage.. Quoique...). Certaines fonctions comme la personnalisation relèvent plus de la fidélisation marketing que d’un réel intérêt pour la recherche, tout au moins à l’heure actuelle, car la personnalisation a une énorme marge de progrès.

En revanche, les technologies de clustering par exemple sont vraiment intéressantes dans le cadre de certaines stratégies de recherche, par exemple quand on part à la découverte d’un sujet... La cartographie quant à elle peut permettre d’avoir une vue d’ensemble sur un sujet, mais elle fonctionnera d’autant mieux que le contenu est homogène. D’autres fonctions enfin sont très utiles, comme de nouvelles possibilités de recherche multimédia ou multilingue, les résumés automatiques ou la pré-visualisation. La pertinence des résultats dépend-elle de l’interrogation ou de l’indexation de la page ?

Les deux. Il s’agit pour les webmasters de concevoir des pages adaptées au mode de référencement des moteurs, et pour les utilisateurs d’employer les bons mots clés et de savoir abandonner par moments l’interrogation d’un moteur pour la navigation et l’exploration des liens. Il faut tenir compte du fait que la pertinence est souvent "polluée" par la fraude à l’indexation (spamdexing) ou les liens commerciaux, et que depuis l’apparition du pagerank de Google, le calcul de la pertinence est lié à la popularité des pages.

Existe-t-il des outils permettant des classements automatiques de contenus Web ou de résultats de recherche sur des moteurs en fonction d’ontologies générales ou spécifiques ?

Sur le web, on a peu d’exemples de ce type de technologies (classement automatique sur des catégories pré-définies, à la différence du clustering où le classement est dynamique a posteriori) : la seule application à notre connaissance se fait sur les catégories du Open Directory (mais ce n’est pas vraiment une ontologie) avec Exalead, par exemple.

Est-il nécessaire de parler anglais pour chercher de l’information sur Internet ?

Tout dépend de ce que l’on cherche. La langue anglaise occupe une place importante sur le web, mais elle pourra être rattrapée par d’autres langues (espagnol, chinois...). On peut supposer que les outils de traduction automatiques des mots clés et des pages vont progresser.

Yahoo ! propose depuis quelques mois une solution de recherche multilingue. Le problème de la traduction automatique n’est pourtant pas encore résolu, dans la mesure où les logiciels utilisés font de la traduction mot à mot dans la plupart des cas (tout au moins sur le Web).

La recherche par métamoteur est-elle plus rapide ?

Plus aujourd’hui. Là aussi, Google a changé la donne. Mais les méta-moteurs ont d’autres cartes à jouer, avec, d’une part la comparaison des résultats de plusieurs moteurs, et d’autre part l’interrogation d’outils spécialisés (Web invisible).

Si vous aviez 5 conseils à donner pour bien chercher, quels seraient-ils ?

1. Savoir questionner : utiliser des mots clés appropriés, quitte à affiner la recherche par étapes

2. Maîtriser les options de recherche avancées des moteurs

3. Aller chercher l’information directement à sa source de production

4. Etre agile, savoir rebondir d’un site à l’autre et d’un outil à l’autre. Multiplier les angles de vue sur un sujet

5. Croiser, évaluer, qualifier l’information, ne pas réinventer la roue à chaque fois, s’appuyer sur l’expertise des autres...

Un sixième conseil pourrait être d’exploiter à fond ce qu’on a trouvé avant de repartir en recherche, utiliser au besoin un outil de capture automatique (Netsnippets, E-gems...). Bref, ne pas "papillonner"

Comment peut-on faire pour être dans les 5 premiers résultats de Google ?

C’est une question liée au référencement. D’excellents sites traitent le sujet : Abondance, Référencement design et Cie, ou bien Webrankinfo. Vous pouvez aussi consulter le Journal du Net

Vous-même, comment organisez-vous vos recherches ?

Armelle Thomas : J’ai très souvent une approche source très poussée, même si je ne connais rien au sujet au préalable. Je travaille aussi parallèlement sur les mots-clés, en me faisant sur un papier un "mini-thésaurus" que j’affine au fur et à mesure. J’use énormément de mon NetSnippets, je navigue beaucoup plus que je n’interroge. Une fois la recherche bien engagée, je change volontiers d’outils ou de technique de recherche.

Véronique Mesguich : Globalement, j’utilise la même technique qu’Armelle. J’utilise de plus en plus les moteurs comme un "guide de sources". Une fois que j’ai trouvé une ou plusieurs pistes intéressantes, j’explore à fond les sources, je navigue de lien en lien, j’essaie de trouver à la fois des sources classiques (sites traditionnels, bases de données) et le cas échéant des sources plus originales (blogs, newsletters, experts...). Comme disent les anglais, "sit back and think". Finalement, le meilleur outil de recherche, c’est peut-être encore le cerveau ! Où peut-on se procurer votre ouvrage ?

Sur le site de la FNAC, Amazon, dans les librairies spécialisées (Teckne, Eyrolles...). L’ouvrage est édité par l’ADBS (Association des professionnels de l’Information) et peut être commandé en ligne (www.adbs.fr). Il est diffusé par Lavoisier.

Source :JDN Solutions.Juin 2006. Auteur :Dominique Filippone


Suivre la vie du site RSS 2.0 | Plan du site | Espace privé | SPIP | squelette