BdD des Sciences d’Information

Accueil du site > Traitement de l’Information > Classification de documents XML à partir d’une représentation (...)

Classification de documents XML à partir d’une représentation linéaire des arbres de ces documents

Anne-Marie Vercoustre, Mounir Fegas, Yves Lechevallier, Thierry Despeyroux

mardi 25 juillet 2006, par anass


Cet article présente un nouveau modèle de représentation pour la classification de documents XML. Notre approche permet de prendre en compte soit la structure seule, soit la structure et le contenu de ces documents. L’idée est de représenter un document par l’ensemble des sous-chemins de l’arbre XML de longueur comprise entre n et m, deux valeurs fixées a priori. Ces chemins sont ensuite considérés comme de simples mots sur lesquels on peut appliquer des méthodes standards de classification, par exemple K-means. Nous évaluons notre méthode sur deux collections : la collection INEX et les rapports d’activité de l’INRIA. Nous utilisons un ensemble de mesures bien connues dans le domaine de la recherche d’information lorsque les classes sont connues a priori. Lorsqu’elles ne sont pas connues, nous proposons une analyse qualitative des résultats qui s’appuie sur les mots (chemins) les plus caractéristiques des classes générées..

Source :Hal-INRIA.2005. Auteurs :Anne-Marie Vercoustre, Mounir Fegas, Yves Lechevallier, Thierry Despeyroux


Suivre la vie du site RSS 2.0 | Plan du site | Espace privé | SPIP | squelette