BdD des Sciences d’Information

Accueil du site > Science de l’Information et Bibliothéconomie (Généralités) > Extraction et indexation de chemins de lecture pour la Recherche (...)

Extraction et indexation de chemins de lecture pour la Recherche d’Information sur le Web.

Saïd Radhouani, Jean-Pierre Chevallet, Mathias Géry

vendredi 17 novembre 2006, par anass


RÉSUMÉ :

Les documents du Web ont des nouvelles caractéristiques par rapport aux documents textuels classiques. Nous évoquons l’aspect hypertexte qui fait que les informations soient stockées dans plusieurs pages connectées par des liens hypertextes. Devant cette nouvelle caractéristique, les moteurs de recherche, basés sur des modèles classiques de RI développés pour des documents textuels, ne sont plus adaptés aux spécificités du Web. Ils considèrent ce dernier comme un ensemble de documents atomiques et indépendant et tiennent peu compte du fait qu’il est avant tout un ensemble de documents liés par des liens hypertextes. Pour cette raison, plusieurs méthodes ont été développées afin d’utiliser les liens dans le processus de RI. Les expérimentations de test d’évaluation de ces méthodes ont montré qu’il n’y a pas de gain significatif comparé aux méthodes basées seulement sur le contenu textuel. Nous remettons en cause l’échec de ces approches au fait qu’elles ne distinguent pas entre les différents types de pages et les différents types de liens. Nous proposons à ce que les pages et les liens soient utilisés avec plus de finesse, en tenant compte de leur nature et du rôle qu’ils jouent dans le Web. Ainsi nous proposons un modèle qui permet de prendre en compte les liens hypertextes pour la RI en utilisant une nouvelle granularité autre que la page Web : la zone de texte. Nous proposons comme réponse à un besoin utilisateur, un document avec une nouvelle structure et qui décrit bien l’information

Source :MRIM.2004. Auteurs :Saïd Radhouani, Jean-Pierre Chevallet, Mathias Géry


Suivre la vie du site RSS 2.0 | Plan du site | Espace privé | SPIP | squelette