Qu’en est-il de la recherche documentaire sur Internet ?

20.08.2012 | Von Pierre-Olivier Vallat | Benutzung | Informationskompetenz | Internetrecherchen

La recherche documentaire sur Internet est-elle pertinente ? L’information utile reçue d’Internet lors de la recherche de documents tels que livres, articles, revues, etc. est parasitée dans une multitude d’éléments qui n’ont aucun rapport avec l’objet de la recherche.

Von Pierre-Olivier Vallat
Pierre-Olivier Vallat : Durant vingt-trois ans enseignant en mathématiques, sciences et informatique dans un collège de la ville de Bienne. Depuis dix ans, formateur TICE à la HEP-BEJUNE et responsable de projets informatiques pédagogiques. Maturité scientifique au Gymnase français de Bienne, puis diplôme de maître secondaire à l’Université de Berne. Diplôme postgrade d’ingénieur en informatique technique à la HES de St-Imier et MAS en sciences de l’éducation à l’Université de Genève.
Depuis plusieurs années, Internet fournit des services de recherche à partir de volumineux index qui répertorient plusieurs millions de pages publiées sur la planète. Certains, comme Altavista, avaient les faveurs du public il y a quelques années encore, mais sont aujourd’hui supplantés par le géant Google. De puissants programmes informatiques, appelés moteurs de recherche, permettent d’accéder rapidement aux pages de la toile en fonction de mots spécifiques. Que dire des résultats obtenus ? Peuvent-ils concurrencer ceux de recherches spécifiques effectuées dans le cadre de centres de ressources et médiathèques ?
 
Les résultats des recherches
Si ces moteurs de recherche semblent exhaustifs, le résultat de l’indexation obtenu n’est pas le fruit du hasard. En effet, l’indexation dépend de plusieurs paramètres, tel le libre accès à la page (page protégée par un identifiant et un mot de passe), la volonté de l’éditeur de la page de la référencer ou non (des commandes adéquates interdisent l’indexation par les moteurs de recherche), la découverte ou non du site contenant la page, la position de la référence dans la multitude des liens proposés, etc. Ce qui précède explique pourquoi un grand nombre de pages intéressantes échappent donc aux internautes. Qui plus est, une fois indexées, les pages évoluent et parfois disparaissent purement et simplement. Le résultat de recherches analogues évolue donc dans le temps et, plus déroutant, la même recherche faite simultanément sur deux ordinateurs distincts peut offrir des résultats différents. En effet, les moteurs de recherches utilisent plusieurs serveurs pour répondre aux multiples accès dans des délais raisonnables. Si ces serveurs échangent continuellement de l’information entre eux, ils ne sont jamais parfaitement synchronisés.
 
Comme déjà évoqué précédemment, la multitude des liens proposés oblige à un classement dont les critères nous échappent complètement. Quels sont les critères qui interviennent dans l’ordre d’affichage des liens ? Est-ce lié à leur pertinence comme nous sommes enclins à le croire ? La plus grande prudence à ce sujet est de rigueur. Les publicités, particulièrement bien ciblées par rapport à notre critère et affichées sur la page de résultats, sont un signal à ne pas sous-estimer. Il est en effet fort probable que des critères économiques interviennent dans cet ordonnancement, puisque la publicité représente l’une des ressources financières primordiales pour les moteurs de recherche.
 
Le tri des informations
Si l’on peut s’interroger sur la pertinence des liens proposés et de l’ordre dans lequel ils apparaissent, celle des contenus s’avère tout aussi précaire. Comme la traçabilité est souvent difficile (seuls les sites académiques fournissent systématiquement leurs sources et références), il est parfois impossible de vérifier la qualité des contenus proposés. L’ouverture d’Internet permet à tout un chacun de publier n’importe quoi. Les moteurs de recherches indexent des mots existants sans pour autant pouvoir vérifier la qualité du texte. Aujourd’hui encore, seul un regard humain pourrait fournir cette plus-value, mais la mouvance quotidienne des milliers de pages ajoutées, détruites ou modifiées rend impossible ce type de vérification. C’est donc à l’utilisateur de tenter de trier les éléments fiables de ceux qui le sont moins. Il n’existe malheureusement pas de méthode simple pour effectuer ce tri, bien que l’adresse de la page fournisse un élément d’information important. En effet, les sites des institutions officielles peuvent être considérés comme fiables puisque leurs pages sont sujettes à des comités de lecture avant publication. Néanmoins, il convient de rester vigilant et le recoupement d’information entre plusieurs sources s’avère indispensable.
 
Les requêtes
Nous avons brièvement relevé quelques écueils liés aux moteurs de recherche et aux contenus des pages publiées. Tournons-nous maintenant vers le consommateur de l'information, c’est-à-dire l’utilisateur qui lance sa requête. Le mode d’interrogation par mots-clefs, qui d’un premier abord paraît simple, montre rapidement ses limites. L’utilisateur oscille continuellement entre deux extrêmes. Soit son critère de recherche est trop pointu et il élimine des éléments pertinents, soit son critère est trop flou et l’information pertinente se retrouve noyée dans une collection pléthorique de résultats quelconques que nous qualifierons de bruit parasite. Certes, les moteurs de recherche proposent des syntaxes qui améliorent sensiblement la recherche, mais ces syntaxes ne sont en général pas connues des utilisateurs. Lorsqu’une requête concernant un ouvrage, un livre, un article, etc. est lancée dans un moteur de recherche en fonction de mots-clefs, tous les éléments indexés par le moteur de recherche apparaissent dans les résultats, ce qui produit un bruit parasite important qui noie complètement l’information pertinente recherchée. Conscient de ce problème, Google a mis en place un site qui permet la recherche documentaire, http://scholar.google.com, qui permet de limiter la recherche à des ouvrages, articles, etc., et de ne pas prendre en compte les éléments qui n’ont aucun lien avec une publication.
 
La spécialisation de l’indexation
Comme nous l’avons vu, la méthode d’indexation des moteurs de recherche n’introduit aucun sens au mot puisque seule une correspondance littérale, plus ou moins sophistiquée, est employée. La démarche d’indexation réalisée par les bibliothécaires est totalement différente puisque les ouvrages (livres, CD, DVD, etc.) ne sont catalogués qu’après leur acquisition. Les critères, qui ont conduit à cette acquisition, sont spécifiques à la médiathèque, constituent en quelque sorte son identité propre et fournissent implicitement de l’information. L’exemple suivant illustre notre propos. Nous ne chercherons pas le dernier doctorat en physique nucléaire à la bibliothèque municipale, ni le dernier polar à la bibliothèque des sciences expérimentales d’une université. De plus, le regard humain jeté lors de l’introduction des données, regard qui fait si cruellement défaut aux robots des moteurs de recherche, augmente la qualité de l’indexage. En effet, les bibliothécaires chargés d’introduire les données intégreront implicitement les notions sémantiques liées au contexte qui entoure l’achat. Même si certains systèmes dits d’« intelligence artificielle » tentent une telle approche, ils ne peuvent pas, pour l’instant, concurrencer le cerveau humain.
 
La conclusion
Faut-il abandonner la recherche sur Internet ? La réponse est clairement non, mais doit être nuancée en regard des éléments évoqués plus haut. Même si la collection des éléments exposés sur Internet n’est pas exhaustive, elle peut enrichir une documentation déjà existante. L’utilisation d’Internet ne peut aujourd’hui remplacer une recherche plus ciblée au travers des catalogues (en ligne ou non) proposés par les centres de ressources. Souvent, un échange verbal entre demandeurs et bibliothécaires permet de mieux cibler la recherche et d’orienter l’utilisateur. Les bibliothécaires pourront guider l’utilisateur en fonction de leurs connaissances de leur centre de ressources. Par ailleurs, les références obtenues permettront une nouvelle orientation de la recherche sur Internet et provoquer un effet de va-et-vient dans lequel les diverses ressources s’enrichissent mutuellement.
  
Pierre-Olivier Vallat
Formateur HEP-BEJUNE
pierre-olivier.vallat@hep-bejune.ch
032 886 97 28