BdD des Sciences d’Information

Accueil du site > Science de l’Information et Bibliothéconomie (Généralités) > Approche innovante pour la recherche et l’extraction cooperative et (...)

Approche innovante pour la recherche et l’extraction cooperative et dynamique d’informations sur Internet

Xavier Denis, Gaele simon, Nicolas chanchevrier

jeudi 9 novembre 2006, par anass


Résumé :

Il existe de nombreuses techniques qui permettent de classiffier des documents textuels en fonction du centre d’intérêt et d’un utilisateur (kNN, SVM, . . .). Malheureusement, l’intégration de ces méthodes dans des plate-formes de textmining est souvent trés statique et ne permet pas facilement d’affiner les traitements et/ou résultats au cours du temps. Le but de cet article est de présenter une plate-forme de webmining dans laquelle les données hétérogénes sont représentées uniformément selon un formalisme XML/TEI et ou l’utilisateur peut interagir sur les processus de récupération et d’analyse de ces données. Pour cela, les modules de traitements sont représentés par des agents fonctionnant sur la plate-forme MadKit et l’apprentissage se fait sur une méthode dérivée de VSM

et TFIDF utilisant un principe de listes noires pondérées permettant la reconnaissance de documents indésirables. La dynamique de la plate-forme repose principalement sur la possibilité d’ajouter à la volée des agents de traitement et de pouvoir modifier l’ordre et les paramétres d’analyse des documents.

Source : Telecom Paris ENST. Auteurs :Xavier Denis, Gaele simon, Nicolas chanchevrier


Suivre la vie du site RSS 2.0 | Plan du site | Espace privé | SPIP | squelette