BdD des Sciences d’Information

Accueil du site > Science de l’Information et Bibliothéconomie (Généralités) > Pratiques d’indexation dans les Bases Textuelles Structurées : (...)

Pratiques d’indexation dans les Bases Textuelles Structurées : Application aux Textes Techniques sous Format HTML

Tarek Ouerfelli et Geneviève Lallich-Boidin

vendredi 8 juin 2007, par anass


Résumé

Parvenir à un système de recherche d’information technique capable de donner en réponse une unité de texte pertinente nécessite en amont de l’indexation une phase de segmentation du texte en Unités Documentaires fines et cohérentes. Dans cet article, nous avançons quelques éléments sur la stratégie de segmentation qui pourra être adoptée dans un processus d’indexation d’un texte technique volumineux. La stratégie de segmentation adoptée sera présentée à partir des résultats d’une expérimentation menée sur plusieurs textes techniques sous format HTML. Cette stratégie se veut dynamique avec la prise en compte des différents médias qui existent dans les textes techniques (texte, figure, tableau, ....). Ainsi, l’Unité Documentaire à indexer, qui se trouve à l’intérieur de l’unité logique peut être une unité textuelle composée d’un ou de plusieurs paragraphes ou bien une unité composite de paragraphe, tableau et figure.

Source :CAIS-ACSI. Auteurs :Tarek Ouerfelli et Geneviève Lallich-Boidin


Suivre la vie du site RSS 2.0 | Plan du site | Espace privé | SPIP | squelette