La recherche plein texte, le piège de la facilité !

Ma dernière entrée de blogue portait sur un texte de Donald Fyson : À la recherche de l’histoire dans les bibliothèques numériques : les leçons de notre mémoire en ligne, plus précisément sur la première partie du texte. Dans cette première partie, Fyson faisait quelques mises en garde quant à l’utilisation de ces archives numériques dans le cadre de recherche en histoire. C’est à croire que cet auteur m’a inspiré, car mon entrée portera sur la seconde partie de son article qui traite de l’utilisation de la recherche plein texte……en histoire !

Cet outil se révèle des plus précieux dans notre quête du temps. En effet, la recherche plein texte permet à l’historien d’effectuer une recherche par mot clef au niveau de millier de documents, et ce, en quelques secondes !

De façon traditionnelle, l’historien aurait dû se limiter à un corpus de sources raisonnables (échantillon) et éplucher ces dernières une par une à la recherche du mot clef ou d’un concept faisant l’objet de sa recherche. Beaucoup de temps et de patience résument ce genre de recherche, mais ces dernières peuvent être très enrichissantes dépendamment des sources consultées.

Mais attention chers amis, la facilité ne vient jamais sans contrainte et l’historien doit être conscient des limites de ces outils et des pièges qu’ils peuvent comporter dans les résultats obtenus. C’est ce que Donald Fyson nous présente dans la seconde partie de son article.

Les limites sont ici importantes et l’utilisation de la recherche plein texte dans le cadre d’une recherche ne doit pas se faire de façon innocente. L’historien doit en effet connaître les contraintes liées à l’utilisation de cet outil. Contrairement à une recherche méticuleuse au niveau d’un corpus de sources passé au peigne fin par le chercheur, les résultats d’une recherche plein texte effectuée par un moteur de recherche ne doivent pas être pris avec certitude et l’historien, selon Fyson, se doit d’admettre qu’ils sont possiblement erronés. Un résultat négatif ne doit donc pas être pris pour une absence de résultats.

Le moteur de recherche fait une analyse bête d’un texte, dénué de toute interprétation et de toute mise en contexte de la production du document dans son ensemble ou de l’utilisation d’un mot dans une phrase. Cette limite au niveau de l’analyse amène donc une possibilité d’erreur au niveau de la recherche même. L’historien devra donc faire preuve d’ingéniosité dans la formulation de ses requêtes afin de pallier le manque de subtilité du moteur de recherche ! Les requêtes devront être formulées de plusieurs façons afin de ne rien échapper. Fyson donne l’exemple du «s» qui au début du XIXe siècle revêt une forme allongée, «ƒ», que les moteurs de recherche confondent avec la lettre «f». La requête devra donc comporter les deux formes d’écriture, soit par exemple «secrétaire» et «fecrétaire» afin que la recherche soit complète. La langue évolue également au fil des siècles et certains termes utilisés à une époque ne le sont plus aujourd’hui. L’historien devra donc tenir compte de cette évolution dans le cadre de sa recherche.

Un des avantages de la recherche plein texte est qu’elle permet de traiter une quantité importante de source en peu de temps. Cependant, ce type de recherche se prête difficilement aux recherches de mots ou concepts trop généraux. Une telle recherche peut générer une quantité faramineuse d’occurrences qui seront difficilement traitables par les facultés limitées de l’être humain. Je ne veux pas dire ici que l’intelligence humaine est inférieure à celle de la machine, mais vous conviendrez avec moi que passer au travers de plus de 50 000 occurrences concernant le mot «parlement» est une tâche herculéenne. Cette abondance de résultats rendus possibles par la recherche plein texte influence donc la recherche des historiens vers des sujets de plus en plus précis aux résultats plus gérables. Ce type d’outils crée donc un curieux paradoxe. Il permet de traiter une quantité importante de sources, mais dirige les recherches vers des sujets qui génèreront moins de résultats.

L’historien, lorsqu’il utilise la recherche plein texte dans le cadre d’une recherche, doit être conscient que les résultats obtenus peuvent être erronés. En fait, il faut être conscient qu’avec la recherche plein texte, on sacrifie la qualité au profit de la quantité. Aucun programme, faisant une analyse unilatérale par présence ou absence d’un mot, ne pourra remplacer un chercheur avec tout son bagage de connaissances mis au profit de la compréhension d’un document. Mais la disponibilité accrue des sources (les sources ont toujours été abondantes, mais avec la numérisation et le WEB elles sont de plus en plus facilement disponibles) rend le virage informatique presque incontournable. Cependant, l’historien en tenant compte des limites de cet outil pourra éviter quelques pièges dans son interprétation des résultats.

Source :

FYSON, Donald, « À la recherche de l’histoire dans les bibliothèques numériques. Les leçons de Notre mémoire en ligne », Revue d’histoire de l’Amérique française, vol. 59, no 1-2, été-automne 2005, p. 95-113. <http://www.erudit.org/revue/haf/2005/v59/n1-2/012721ar.html> (24 novembre 2011).



Laisser un commentaire

Choisissez une méthode de connexion pour poster votre commentaire:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s