BdD des Sciences d’Information

Accueil du site > Science de l’Information et Bibliothéconomie (Généralités) > Une approche linguistique et statistique pour l’analyse de (...)

Une approche linguistique et statistique pour l’analyse de l’information en corpus

Yannick Toussaint , Fiammetta Namer

mardi 8 mai 2007, par anass


Résumé

Cet article présente une chaîne de traitement automatique réalisée dans le cadre du projet ILIAD (Informatique Linguistique et Infom´etrie pour l’Analyse de grands fonds Documentaires) du GIS Sciences de la Cognition. Cette chaîne est dédiée à l’analyse de l’information à partir de corpus de textes de très grand volume, en français. Elle est expérimentée sur un corpus de 2,5 Mb et a conduit à la création de 50 classes de termes. Ces classes sont construites sur la base de la cooccurrence des termes et représentent des connaissances du domaine. Les différentes étapes de la chaîne associent des méthodes linguistiques informatiques et des méthodes statistiques : pré-traitement des textes, étiquetage, morphologie, terminologie et analyse des documents. Pour chacune d’entre elles, nous présentons les méthodes, les outils ainsi que leur évaluation.

Source : LIMSI.Auteurs :Yannick Toussaint , Fiammetta Namer


Suivre la vie du site RSS 2.0 | Plan du site | Espace privé | SPIP | squelette