BdD des Sciences d’Information

Accueil du site > Veille > Processus de veille : Internet vs grands serveurs

Processus de veille : Internet vs grands serveurs

Anne-Marie Libmann

dimanche 30 avril 2006, par anass


La recherche d’informations sur le Net est un véritable défi pour le professionnel de l’information, qui doit sans cesse revoir sa méthodologie et sa connaissance du réseau, tant au niveau technique que du contenu. L’exploration d’Internet dans le cadre d’une activité de veille permanente pose des problèmes que l’on pressent spécifiques et qui se rajoutent à ceux de la recherche elle-même.

Matière première d’information convoitée et inépuisable - dont par conséquent le veilleur ne peut faire l’économie -, Internet remet en question, par sa complexité de traitement, la prestation de veille, en particulier sur les critères de l’exhaustivité et de la pertinence.

Paradoxalement, les outils de surveillance d’Internet ne manquent pas, de la solution gratuite à la solution hors de prix, mais leur choix et leur mise en œuvre n’est pas chose facile ; il semble en effet que quel que soit l’outil choisi, la complexité et les ruptures introduites dans le processus de veille soient toujours d’actualité.

Nous nous attacherons dans cet article à voir où se situe cette complexité, à savoir quelles sont les grandes difficultés introduites par Internet dans l’activité de veille, quels sont les problèmes à traiter dans ce cadre et comment il est possible de tenter de les résoudre.

Nous nous intéresserons moins à la question du choix et de la mise en œuvre d’une solution qu’aux problèmes posés et à leur impact sur l’activité de veille, dans les différentes étapes du process : acquisition, traitement, diffusion et capitalisation. Précisons qu’un dispositif de veille est multi-support et ne se limite pas aux informations électroniques ; mais nous avons voulu rester ici dans la comparaison entre Internet et les serveurs classiques d’information en ligne.

INTERNET : UNE MATIERE NOUVELLE POUR LES VEILLEURS

D’après ce que nous avons pu observer*, cette matière a mis du temps a acquérir un statut de matériau de veille. Si l’exploration du Web se faisait de façon plutôt anarchique au sein des entreprises, il était difficile pour les professionnels de l’information d’intégrer rapidement et de façon stable un matériau aussi considérable et aussi nouveau, dans des systèmes de veille déjà alimentés par des flux d’informations bien maîtrisés.

L’introduction, dans les sites Web de sociétés faisant l’objet d’une surveillance, d’informations mises à jour avant celles effectuées sur les autres supports - ou parfois non reprises sur ces autres supports -, a considérablement aidé à la prise de conscience qu’il fallait, pour garder le contrôle de la fonction de veille, investir dans l’exploration systématique d’Internet.

Du coup, le champ à intégrer a été considérable, et ceci dans trois domaines principalement :
- la presse, en particulier locale : il a été possible d’enrichir significativement le dispositif existant, avec la découverte de sources très locales sur un grand nombre de pays - non disponibles sur les serveurs - et d’arriver à cibler des informations très précieuses pour le suivi de certains sujets ;
- l’information sociétés : la création des sites Web d’entreprises a été un phénomène assez impressionnant, permettant d’acquérir une information de la part des sociétés souvent plus complète que dans les documents officiels tels que les rapports annuels et d’être en quelque sorte un reflet beaucoup plus fidèle et à jour de la vie des sociétés. Cette démarche a aussi été élargie aux clients et fournisseurs, qui étaient moins suivis ;
- l’information institutionnelle, que ce soit dans les organisations professionnelles (fédérations, associations de producteurs...) ou dans les institutions publiques ou privées (gouvernements, repré-sentations européennes, organisations environnementales...) : ici, la fréquente complexité et la richesse du matériau mis en ligne est impressionnante.

LA PERTURBATION DES SYSTEMES "TRADITIONNELS" DE VEILLE Face à cette irruption d’un flux nouveau, le choc entre d’un côté les systèmes d’acquisition électroniques traditionnels de l’information à partir des grands serveurs, réglés sur l’explicite et le structuré, et de l’autre le monde Internet, plutôt obscur et aléatoire, était difficile à gérer.

Dans les différents process de veille que nous pouvons distinguer - l’acquisition de l’information, son traitement, sa diffusion et son stockage -, la confrontation entre les deux démarches a suscité beaucoup de difficultés qu’il a fallu régler.

Cependant, malgré les difficultés pressenties, on ne pouvait rester dans l’ignorance de pans entiers d’informations, Internet apparaissant désormais comme une matière informationnelle d’un statut égal à celle stockée sur d’autres supports, même si l’appréhension et l’intégration de cette matière constitue un véritable défi pour le veilleur.

Nous nous efforcerons ici de décrire les problèmes de la surveillance d’Internet tels que nous les avons formalisés et traités lors de nos propres “expériences”. Il est certain que d’autres visions et approches sont tout à fait possibles.

L’ACQUISITION : BOITE NOIRE OU MAITRISE DU PROCESSUS ?

Dans le domaine de l’acquisition, on peut distinguer plusieurs oppositions fortes :

- la construction des requêtes : elle est facile sur les grands serveurs, dotés d’outils de recherche puissants, où l’utilisateur professionnel est formé à la syntaxe et connaît le contenu et la structure des bases de données (rendus en permanence accessibles par les serveurs et les éditeurs de contenu) ; elle est très difficile sur Internet, où la navigation au fil de l’eau est parfois même préférable à l’utilisation, quand il existe, du moteur interne du site, où il n’est guère possible que d’aligner des mots-clés successivement et parfois de tester d’improbables opérateurs ;

- le stockage des requêtes : la veille, phénomène récurrent, implique l’enregistrement des stratégies de recherche, parfois très lourdes. Ici, l’utilisateur habitué aux dispositifs élaborés de stockage offerts par les serveurs pour des requêtes sans cesse améliorées et modifiées, s’est vu dans la nécessité de recourir à des solutions très faibles techniquement pour le stockage de mots-clés alignés. Ce problème rejoint celui des sources, dont la sélection est enregistrée sur le serveur, alors qu’Internet nécessite de stocker des quantités d’URLs...

- la mesure de la pertinence des résultats : très liée à l’anticipation possible, en fonction de la connaissance a priori du contenu de la base et de la confiance dans la requête élaborée, l’évaluation de cette pertinence est nettement plus forte sur les serveurs classiques ;

- le volume de l’information : nous étions jusqu’à présent dans une logique de flux maîtrisés, en particulier sur le plan quantitatif : le flux capté sur les serveurs est maîtrisable car sans cesse affiné, réajusté par la modification des requêtes, ce qui implique une variation assez limitée du flux capté ; dans le cas d’Internet, les énormes volumes d’information ne sont pas contrôlables : la matière est débordante... A titre d’exemple, dans une démarche de veille sur Internet, une dimension spécifique à prendre en compte est que l’on peut être à tout moment amené à découvrir de nouveaux sites à intégrer dans la surveillance.

Lorsque l’on veut automatiser ce processus de collecte, se pose la question de la volonté plus ou moins grande de contrôler le déroulement des étapes d’acquisition et de maîtriser le plus possible l’outil de surveillance et son action.

Nous entrons ici dans une logique de surveillance “industrielle” d’Internet et d’investissement particulièrement coûteux en termes de ressources et d’outils, avec force analyses et paramétrages ; mais un veilleur peut-il accepter la notion de “boîte noire” en matière d’acquisition d’un matériau stratégique ?

On dira tout de suite qu’il est difficile de se lancer seul dans ce type d’expérience, tant la connaissance de l’outil de surveillance choisi et la connaissance approfondie du Web et de ses composantes sont indispensables. Voilà qui n’est pas de nature à encourager l’optimisme d’une démarche individuelle (ou peu onéreuse...), mais il nous semble que l’on peut difficilement arriver à la maîtrise des différents éléments sans l’aide de spécialistes externes.

Parmi les principales étapes que nous avons formalisées dans notre démarche, nous citerons, une fois défini le “portefeuille des sites” à surveiller, l’analyse très détaillée de chaque site Web, de sa struc-ture, des parties réellement informatives, avec pour principe de regarder leur évolution sur un certain laps de temps.

Après le choix des parties à conserver et à éliminer, on aborde les problèmes linguistiques : langues utilisées sur le site, langues à indexer.

Vient ensuite la qualification du site : type de site (intranet, internet...) ; technologies sous-jacentes (html...), existence d’un moteur intra-site et, si oui, évaluation technique, identification requise ou non (si oui avec gestion du login et password).

Enfin se posent les questions relatives à l’outil choisi : connaissances approfondies de l’outil et définition des contraintes : fréquence d’indexation, partitionnement des bases, volumétrie, nécessité d’archivage, habilitation d’accès...

Les problèmes techniques sont nombreux et variés : extraction de la bonne date, reconnais-sance de frames, pages dyna-miques, identifiants...

L’administration courante n’est pas simple non plus : gestion des évolutions des sites, contrôle du bon fonctionnement des programmes lancés, optimisation des parcours des sites, des liens aspirés, etc.

UN TRAITEMENT DE L’INFORMATION D’INTERNET A PART ?

Dans le domaine du traitement, on observe globalement un rallongement significatif du temps à consacrer, dû à un certain nombre de facteurs :

- l’évaluation de l’information collectée : le professionnel habitué à une identification précise et exhaustive de la source, de l’auteur, du titre, de la date, etc. se heurte à un problème d’authentification de l’information sur Internet, premier obstacle au processus de validation et d’évaluation du contenu de l’information ;

- la rapidité à maîtriser intellectuellement le flux : dans un contenu relativement homo-gène, dédoublonné de façon assez satisfaisante comme celui fourni par les serveurs classiques, les informations intéressantes sont perçues rapidement et la décision de traitement qualitatif ou parfois quantitatif de chaque information est assez rapide ;

- la “superposition” des systèmes de collecte : on se retrouve face à un énorme problème de redondances à éliminer entre les informations fournies en double par les serveurs spécialisés et Internet, que ce soit dans la presse locale, nationale, les communiqués de presse...

- la constante confrontation entre l’information donnée par la société sur son site Web et la représentation de la société formée par l’analyse de la presse, obtenue jusqu’ici par les moyens traditionnels ;

- la question des volumes à traiter se pose ici de façon majeure et pose le problème du maintien d’un contrôle manuel, qui a toujours été pratiqué et perçu par nous comme une condition indispensable de la qualité des informations ensuite diffusées.

Globalement, le temps de traitement a été considérablement rallongé, car il nous a semblé impossible d’automatiser des opérations intellectuelles telles que la comparaison, la qualification et la synthèse d’informations de nature très différente, provenant de deux types de flux différents.

Les difficultés énoncées restent entières ; le traitement de l’information est précédé d’un plus grand nombre d’opérations intermédiaires consommatrices de temps : élimination des doublons, identification du matériau. La “datation” du document n’est pas la moindre des difficultés.

CONTROLE DE LA DIFFUSION OU ARROSAGE INCONTROLE ?

Dans les domaines de la diffusion et de la capitalisation, prédominent essentiellement des problèmes de contrôle de flux ainsi que d’hétérogénéité de contenus et de formats des documents issus du Web.

La culture de communication de chaque société est bien sûr variable de l’une à l’autre ; il nous semble cependant qu’il est assez difficile de diffuser de si larges quantités d’informations, malgré les rêves d’exhaustivité de certains clients internes. Dans un processus d’alerte par e-mail, qui nous apparaît devoir être complètement contrôlé manuellement, cela semble totalement exclu.

Le problème est peut-être plus simple à résoudre dans un système de mise à disposition de type intranet ou portail. Ici, les flux d’informations mis en ligne sont plus importants et la segmentation ou la catégorisation des informations est généralement plus floue.

LE STOCKAGE OU L’INTEGRATION D’UN FLUX VOLUMINEUX ET HETEROGENE

La diffusion de l’information est souvent liée à la problématique de son stockage. L’information est souvent diffusée via des systèmes qui permettent de la capitaliser.

On se retrouve donc devant la difficulté de décrire dans ces systèmes, de façon homogène, l’information structurée et celle non structurée d’Internet, qui se trouve en outre sous des formats très variés.

On peut également se demander s’il est raisonnable d’investir dans le stockage ou l’intégration, dans des systèmes alimentés par de l’information contrôlée, de si grandes masses d’un matériau nécessitant un traitement très long.

La solution pour laquelle nous avons optée a été la création d’un portail dédié à l’information issue du Web, avec pour chaque utilisateur la possibilité de construire et de personnaliser son propre accès à cette information (constitution aisée de channels de diffusion, variés et modifiables, de bases de données spécifiques reposant sur une indexation puissante du matériau stocké...).

Il est clair que la séparation des systèmes de stockage et de diffusion des deux types d’information que nous avons opposés a prolongé la dualité que nous avions introduite, avec la séparation des deux plates-formes d’acquisition, l’une centrée sur les serveurs classiques et l’autre sur Internet.

Cette séparation était justifiée :
- par la faiblesse de l’indexation du Web par certains serveurs classiques - malgré leurs efforts ;
- par notre méfiance à utiliser le dispositif de surveillance du Web invisible, incluant les grands serveurs, proposés par certains éditeurs d’outils puissants ; ces derniers offrent en effet de surveiller toutes les sources électroniques disponi-bles, quelle que soit leur nature. Nous restons persuadés que la meilleure efficacité est obtenue en utilisant les outils les plus sophistiqués de chaque serveur.

Avec en outre la désolidarisation des procédés de traitement de l’information acquise avant diffusion/ stockage, on voit que les points de rupture dans le processus global de veille sont importants.

L’expérience montre que la meilleure solution - tout au moins pour nous aujourd’hui - est de séparer totalement les chaînes acquisition / traitement / stockage et diffusion des informations, en provenance des serveurs classiques d’une part et du Web d’autre part.

Ceci peut n’être que provisoire...

*Anne-Marie Libmann fait part dans cet article de son expérience en tant que Responsable Business Information au sein du groupe Pechiney (ndlr).

Source :Bases. Numéro de Avril 2004 - n°204. Auteur :Anne-Marie Libmann


Suivre la vie du site RSS 2.0 | Plan du site | Espace privé | SPIP | squelette