Roy Rosenzweig Center for History and New Media : Building a Better Yesterday, Bit by Bit

Source : http://www.zotero.org/

Depuis le début du cours, plusieurs références ont été faites, peut-être sans le savoir, à des documents ou des outils qui ont été produits et développés par le Centre for History and New Media (CHNM) de l’Université de George Mason en Virginie. Ce centre a été fondé en 1994 par Roy Rosenzweig et avait comme but premier la démocratisation de l’histoire (accessibilité des sources) par l’utilisation de l’informatique et des médias numériques. En avril 2011, suite au décès de son fondateur en 2007, le centre a été renommé Roy Rosenzweig Centre for History and New Media en son honneur. Les activités du CHNM se divisent en trois catégories principales : enseignement et apprentissage, recherche et outils et expositions et collecte, sections que l’on retrouve sur le site du CHNM.

La première section du site se consacre à l’éducation. Le CHNM présente ici une vingtaine de projets qui peuvent être utilisés dans le cadre de la planification d’un cours ou par les étudiants eux-mêmes dans le cadre de leurs travaux. Chaque site a un thème spécifique et présente dans la majorité des cas, une multitude de sources primaires qu’il est possible de consulter. Le site Teaching American History propose des plans de cours, des documents d’archives, des exercices d’analyse de sources primaires, etc. pouvant être utilisés dans le cadre d’un cours sur l’histoire américaine. Ils est donc possible de trouver de l’information sur l’histoire, majoritairement américaine, mais également sur d’autres périodes telles que la Révolution française (Liberty, Equality, Fraternity : Exploring the French Revolution).  Des sites plus généraux sont également présents comme World History Sources qui présentent un dossier complet sur l’analyse des différents types de sources que l’on utilise en histoire.

La seconde section présente différents outils qui peuvent être utilisés dans le cadre de recherche en histoire. Parmi les outils les plus connus développés par le CHNM, on retrouve Zotero et Omeka. On y retrouve également le livre de Daniel J. Cohen (directeur actuel du CHNM) et de Roy Rosenzwieg, Digital History : A Guide to Gathering, Préserving and Presenting the Past on the Web dont nous avons eu quelques chapitres à lire dans le cadre de notre cours. Parmi les autres outils présentés, on retrouve un outil de recherche de syllabus par sujet à travers un grand nombre d’universités et de collèges, une étude en cours sur l’utilisation de la recherche plein texte (text mining), un programme pour construire une ligne du temps, un moteur de recherche pour les départements d’histoire à travers le monde, etc. Cette section constitue donc une «boîte à outils» pour la recherche.

La dernière section est consacrée à la collecte d’archives numériques et à la présentation de quelques expositions, dont une sur les goulags en URSS. On y retrouve également un site consacré aux ouragans Katrina et Rita, mais la pièce maîtresse de cette section est sans nul doute le site consacré aux événements du 11 septembre 2001 (The Septembre 11 Digital Archives). Dans le cadre de ce projet, plus de 150 000 pièces numériques (courriels, images, articles, etc.) ont été recueillies et sont maintenant accessibles à tous. Ce projet démontre bien les préoccupations du CHNM, soit la conservation des archives et particulièrement celles du présent qui seront, pour les historiens du futur, leurs principales sources. Le numérique prend de plus en plus de place dans nos sociétés, mais les traces qu’il laisse sont parfois éphémères. Je vous invite à lire à ce sujet un article de Roy Rosenzweig, «Sacricity or Abundance ? Preserving the Past in a Digital Era», paru en juin 2003 dans The American Historical Review. Cet article portait sur le problème de la conservation des archives numériques. Étant rédigé par le fondateur du CHNM, ce texte aide à bien saisir le but de cette section du centre qui vise à préserver la mémoire collective par la contribution volontaire, la collecte, etc.

Le CHNM est donc un bon exemple de l’utilisation des médias électroniques et de l’informatique pour la diffusion de l’histoire à un public le plus large possible et la devise que l’on retrouve au bas des pages du site, «Building a Better Yesterday, Bit by Bit», résume bien la mission du CHNM. Que ce soit au niveau primaire, secondaire ou universitaire, pour les enseignants ou les étudiants, tout le monde qui a un intérêt pour l’histoire peut y trouver son compte. L’association du CHNM avec une université assure en quelque sorte la qualité de ce qui y est présenté ainsi que le l’évolution constante de son contenu. La langue peut être une barrière à première vue, mais la richesse de ce qu’on y trouve dans les différents sites vaut le détour comme on dit …

 

Sources :

Center for History and New Media, http://chnm.gmu.edu/, 12 décembre 2011.

CHOEN, Daniel J. et Roy Rosenzweig, Digital History : A Guide to Gathering, Preserving and Presentig th ePas on the Web, Philadelphie, University of Pensilvania Press, 2006.

Rosenzweig, Roy, «Sacricity or Abundance? Preserving the Past in a Digital Era», The Américan    Historical Review,vol. 108, no. 3, juin 2003. <http://www.historycooperative.org/journals/ahr/108.3/rosenzweig.html > (13 décembre 2011)

Publicités

La recherche plein texte, le piège de la facilité !

Ma dernière entrée de blogue portait sur un texte de Donald Fyson : À la recherche de l’histoire dans les bibliothèques numériques : les leçons de notre mémoire en ligne, plus précisément sur la première partie du texte. Dans cette première partie, Fyson faisait quelques mises en garde quant à l’utilisation de ces archives numériques dans le cadre de recherche en histoire. C’est à croire que cet auteur m’a inspiré, car mon entrée portera sur la seconde partie de son article qui traite de l’utilisation de la recherche plein texte……en histoire !

Cet outil se révèle des plus précieux dans notre quête du temps. En effet, la recherche plein texte permet à l’historien d’effectuer une recherche par mot clef au niveau de millier de documents, et ce, en quelques secondes !

De façon traditionnelle, l’historien aurait dû se limiter à un corpus de sources raisonnables (échantillon) et éplucher ces dernières une par une à la recherche du mot clef ou d’un concept faisant l’objet de sa recherche. Beaucoup de temps et de patience résument ce genre de recherche, mais ces dernières peuvent être très enrichissantes dépendamment des sources consultées.

Mais attention chers amis, la facilité ne vient jamais sans contrainte et l’historien doit être conscient des limites de ces outils et des pièges qu’ils peuvent comporter dans les résultats obtenus. C’est ce que Donald Fyson nous présente dans la seconde partie de son article.

Les limites sont ici importantes et l’utilisation de la recherche plein texte dans le cadre d’une recherche ne doit pas se faire de façon innocente. L’historien doit en effet connaître les contraintes liées à l’utilisation de cet outil. Contrairement à une recherche méticuleuse au niveau d’un corpus de sources passé au peigne fin par le chercheur, les résultats d’une recherche plein texte effectuée par un moteur de recherche ne doivent pas être pris avec certitude et l’historien, selon Fyson, se doit d’admettre qu’ils sont possiblement erronés. Un résultat négatif ne doit donc pas être pris pour une absence de résultats.

Le moteur de recherche fait une analyse bête d’un texte, dénué de toute interprétation et de toute mise en contexte de la production du document dans son ensemble ou de l’utilisation d’un mot dans une phrase. Cette limite au niveau de l’analyse amène donc une possibilité d’erreur au niveau de la recherche même. L’historien devra donc faire preuve d’ingéniosité dans la formulation de ses requêtes afin de pallier le manque de subtilité du moteur de recherche ! Les requêtes devront être formulées de plusieurs façons afin de ne rien échapper. Fyson donne l’exemple du «s» qui au début du XIXe siècle revêt une forme allongée, «ƒ», que les moteurs de recherche confondent avec la lettre «f». La requête devra donc comporter les deux formes d’écriture, soit par exemple «secrétaire» et «fecrétaire» afin que la recherche soit complète. La langue évolue également au fil des siècles et certains termes utilisés à une époque ne le sont plus aujourd’hui. L’historien devra donc tenir compte de cette évolution dans le cadre de sa recherche.

Un des avantages de la recherche plein texte est qu’elle permet de traiter une quantité importante de source en peu de temps. Cependant, ce type de recherche se prête difficilement aux recherches de mots ou concepts trop généraux. Une telle recherche peut générer une quantité faramineuse d’occurrences qui seront difficilement traitables par les facultés limitées de l’être humain. Je ne veux pas dire ici que l’intelligence humaine est inférieure à celle de la machine, mais vous conviendrez avec moi que passer au travers de plus de 50 000 occurrences concernant le mot «parlement» est une tâche herculéenne. Cette abondance de résultats rendus possibles par la recherche plein texte influence donc la recherche des historiens vers des sujets de plus en plus précis aux résultats plus gérables. Ce type d’outils crée donc un curieux paradoxe. Il permet de traiter une quantité importante de sources, mais dirige les recherches vers des sujets qui génèreront moins de résultats.

L’historien, lorsqu’il utilise la recherche plein texte dans le cadre d’une recherche, doit être conscient que les résultats obtenus peuvent être erronés. En fait, il faut être conscient qu’avec la recherche plein texte, on sacrifie la qualité au profit de la quantité. Aucun programme, faisant une analyse unilatérale par présence ou absence d’un mot, ne pourra remplacer un chercheur avec tout son bagage de connaissances mis au profit de la compréhension d’un document. Mais la disponibilité accrue des sources (les sources ont toujours été abondantes, mais avec la numérisation et le WEB elles sont de plus en plus facilement disponibles) rend le virage informatique presque incontournable. Cependant, l’historien en tenant compte des limites de cet outil pourra éviter quelques pièges dans son interprétation des résultats.

Source :

FYSON, Donald, « À la recherche de l’histoire dans les bibliothèques numériques. Les leçons de Notre mémoire en ligne », Revue d’histoire de l’Amérique française, vol. 59, no 1-2, été-automne 2005, p. 95-113. <http://www.erudit.org/revue/haf/2005/v59/n1-2/012721ar.html> (24 novembre 2011).


Les bibliothèques numériques : une réflexion s’impose

Le WEB regorge de plus en plus de sites spécialisés qui mettent en ligne une multitude d’archives que nous pouvons consulter bien confortablement installé chez soi. Ces bibliothèques numériques sont parfois accessibles gratuitement (en totalité ou en partie selon les bibliothèques) alors que pour d’autres, l’utilisateur doit devenir membre moyennant un coût. Gallica (http://gallica.bnf.fr), Bibliothèque et archive Canada (http://www.collectionscanada.gc.ca/index-f.html), Bibliothèque nationale du Québec (http://www.banq.qc.ca/accueil), la Bibliothèque numérique mondiale (http://www.wdl.org/fr) en sont quelques exemples.

Les archives en lignes font le bonheur des historiens, car nous avons maintenant accès à une multitude de sources primaires sous format numérique. La recherche historique au niveau des sources en est grandement facilitée par les outils informatiques qui peuvent être utilisés lors de la consultation de ces archives (la recherche plein texte par exemple). Les avantages des ces bibliothèques virtuelles pour la recherche historique sont nombreux et leur utilité n’est plus à prouver.

Cependant, l’historien doit demeurer prudent quant à l’utilisation des sources en lignes dans le cadre de ses recherches. Donald Fyson, professeur en histoire à l’université Laval, soulève un point important dans son article « À la recherche de l’histoire dans les bibliothèques numériques. Les leçons de Notre mémoire en ligne» concernant l’utilisation des bibliothèques numériques dans le cadre de recherches d’envergures en histoire.

Ainsi, l’historien se doit de se questionner sur les critères de sélection qui ont mené à la constitution de la collection mise en ligne. Les bibliothèques étant limitées au niveau de ce qu’elles peuvent numériser et mettre en ligne par des impératifs d’ordre financier ou linguistique par exemple, elles doivent donc faire des choix. En faisant ainsi des choix au niveau des sources présentées, le portrait présenté de l’histoire par ces sources est nécessairement incomplet.

Dans son article, Donald Fyson fait cet exercice critique au niveau de la bibliothèque numérique Notre mémoire en ligne (NML) (http://www.canadiana.ca/fr/abonnernml). Il décortique donc les différents corpus qui composent la collection de NML pour nous démontrer que les choix des collections présentées amènent une certaine distorsion de l’histoire vue au travers de ces sources. Par exemple, le choix de NML de ne présenter que des documents imprimés produits majoritairement par les instances fédérales après 1867 aura pour effet de ne donner qu’une vision incomplète de la période étudiée; celle du gouvernement fédéral. De même que le choix de NML de ne mettre que des textes français dans la collection traitant de l’histoire du Canada français nous prive d’une vision importante de cette période, celle des anglophones.

Le message de Fyson ici n’est pas de ne plus utiliser les bibliothèques numériques dans le cadre de recherche sous prétexte que la vision de l’histoire présentée par les sources mises en ligne est tronquée par les critères de sélection que doivent s’imposer ces dernières dans le choix des sources. Au contraire, ces archives en ligne constituent de formidables outils et facilitent le travail de recherche. Il est cependant primordial, lorsqu’une collection d’une bibliothèque numérique est utilisée dans le cadre d’une recherche, que l’historien s’arrête à réfléchir aux choix des archives présentées par cette collection. Cette réflexion est essentielle afin de comprendre l’orientation et les limites des sources utilisées.

 

Source :                                                                                                                

FYSON, Donald, « À la recherche de l’histoire dans les bibliothèques numériques. Les leçons de Notre mémoire en ligne », Revue d’histoire de l’Amérique française, vol. 59, no 1-2, été-automne 2005, p. 95-113. <http://www.erudit.org/revue/haf/2005/v59/n1-2/012721ar.html> (2 novembre 2011).


Histoire de chiffres !

Lors du dernier cours, M. Yves Gingras nous a présenté une façon différente de faire de l’histoire par l’analyse de textes provenant d’un corpus de lettres d’une façon purement mathématique. D’entrée de jeu, on peut dire que cette méthode est quelque peu déstabilisante pour un historien ou un chercheur en sciences humaines qui ne fréquente pas nécessairement le domaine des chiffres et des graphiques dans le cadre de ses recherches.

Cette méthode fait abstraction du contenu des lettres (ou de toute autre forme d’écrit) pour se concentrer uniquement sur la fréquence de certains mots ou de leur association avec d’autres mots afin d’en tirer des tendances. De ces tendances on peut par la suite établir des liens conceptuels ou sociaux entre les acteurs impliqués dans ces documents ou établir tout simplement la force d’un concept pour une période donnée.

Cette méthode se rapproche plus des sciences appliquées que des sciences humaines puisqu’elle se base sur l’analyse de chiffres obtenus à l’aide d’une méthode d’extraction (manuelle ou informatique) et qui sont par la suite transposés en graphiques (réseaux). Ce genre d’analyse est fréquent dans différents domaines de recherche des sciences appliquées (par exemple dans le cas de résultats d’analyses d’échantillons effectués sur une période X que l’on reporte par la suite sur un graphique), mais demeure relativement nouveau en histoire.

Par son détachement par rapport à l’objet de recherche, cette méthode permet d’avoir une vue d’ensemble différente du sujet, soit de l’ordre de la macro comme le soulignait M. Gingras lors de sa présentation. Cette vue d’ensemble permet donc d’orienter où d’aborder un sujet de recherche d’une façon différente.

Ce type d’analyse des textes peut se faire de façon manuelle pour de petits corpus. Toutefois, lorsque ce dernier prend de l’ampleur, il devient difficile, presque impossible, d’en faire une analyse efficace et complète sans un outil informatique adapté qui pourra faire l’opération de recherche en un court laps de temps. L’outil informatique permet de ne plus imposer de limite à la recherche et ainsi obtenir un portait globale du champ d’études. C’est le volume important qui peut-être traité qui rend justement intéressant ce genre d’analyse. Plus ce dernier est important, plus sera représentative l’analyse que l’on en fera.

Le problème est justement la disponibilité de ces corpus qui n’est pas toujours évidente et qui rend donc l’utilisation de cette méthode limitée pour le moment. La numérisation des documents d’archives prend de plus en plus d’ampleur pour les raisons que l’on a vues depuis le début du cours. Ce phénomène permettra donc d’accroître le nombre de corpus disponibles pour ce genre de recherche, à la condition que le format utilisé pour la numérisation permettre ce type d’interrogation et que ces corpus soient accessibles à la communauté et non concentrés dans des fonds d’archives privés (voir le texte de Daniel J. Cohen et Roy Rosenzweig au sujet de l’accessibilité des sources numériques http://chnm.gmu.edu/digitalhistory/introduction/).

Dans un futur pas si lointain, les archives du web constitueront une pièce maîtresse de l’étude historique des décennies 80, 90 et 2000. Ces archives, qui seront déjà sous une forme numérique, formeront donc un corpus incroyable pour ce type de recherches statistiques. Avec l’informatique, il n’y aura plus de limite aux nombres de données et les possibilités d’association de mots seront presque illimitées. Les bases de données ainsi crées seront donc des plus complètes et permettront d’établir des tendances fiables et pertinentes. L’avenir est donc prometteur pour cette méthode de recherche.

Jean-Philippe

 

Sources :

COHEN, Daniel J. et Roy ROSEINGBERG, «Introduction : Promise s and Perils of Digital History» dans Digital History: A Guide to Gathering, Preserving, and Presenting the Past on the Web, Philadelphie, University of Pennsylvanie Press, 2006. <http://chnm.gmu.edu/digitalhistory/introduction/> (23 octobre 2011).

GINGRAS, Yves, «Mapping the structure of the intellectual field using citation and co-citation analysis of correspondences », History of European Ideas, vol. 36, no 3 (2010) pp. 330-339. <http://www.chss.uqam.ca/Portals/0/docs/articles/2010/Correspondence%20HEI%28Gingras%29.pdf> (23 octobre 2011).


Historien ou historien-informaticien ?

Depuis une quinzaine d’années, les outils informatiques utilisés dans divers domaines de recherche en sciences humaines ont considérablement évolué, notamment en histoire. Les chercheurs ont maintenant à leur disposition une multitude d’outils informatiques qu’Émilien Ruiz regroupe dans son texte  « Les historiens seront-ils finalement des programmeurs » en trois catégories : recherche documentaire, gestion et exploitation des données et présentation et diffusion de la recherche. Ces outils se développent à une vitesse fulgurante et on y perd quelque peu son latin dans cette tourmente informatique.

Mais est-ce que la démocratisation de l’informatique rend encore nécessaire une formation poussée en informatique chez les historiens. Doit-ont encore devenir des programmeurs comme l’affirmait Emmanuel Le Roy Ladurie lors d’une conférence prononcée en 1967 à Ann Arbos où il prédisait que les historiens se devaient de devenir programmeurs ou ils seraient appelés à disparaître. Dure condamnation qui, prise dans le contexte des années 60-70, n’était pas si démesurée compte tenu de la complexité de l’informatique à cette époque.

Avec la démocratisation de l’informatique et la révolution provoquée par l’explosion du web, notamment du web 2.0, le rapport de l’historien avec l’informatique a bien changé et ce médium n’est plus uniquement l’apanage des statisticiens comme à l’époque où cette prédiction a été faite.

Mais, la question de savoir s’il est essentiel pour l’historien de devenir un expert en informatique pour pouvoir continuer à évoluer dans son domaine de recherche est toujours pertinente. Les outils informatiques sont de plus en plus faciles d’utilisation et leur coût a considérablement diminué. Mais cette facilité reste tout de même relative. Un minimum de formation est quant à moi nécessaire afin de maximiser leur utilisation. Cependant, de là à faire des historiens des informaticiens ou des programmeurs…..!

Comme le soulignait Émilien Ruiz dans son article, le manque de formation auprès des historiens en informatique peut mener à deux dangers. Le premier est de laisser tout simplement de côté l’utilisation de ces outils à cause du temps nécessaire à y consacrer pour apprendre seul à les maîtriser. Le second est une mauvaise utilisation d’un outil qui pourrait finalement résulter à une perte considérable de temps à essayer de maîtriser ce dernier pour se rendre compte finalement qu’il n’était pas approprié au besoin.

En fait, la formation ne doit pas faire des historiens des experts en informatique et en programmation, mais plutôt lui permettre d’apprendre l’existence des outils à sa disposition, connaître les bases de leurs fonctionnements et ainsi maximiser sont temps dans l’utilisation de l’outil approprié à son domaine de recherche, et ce dès le bac.

Si des besoins spécifiques sont nécessaires à une recherche d’envergure pour laquelle les outils existants ne seraient pas appropriés, il sera toujours possible de travailler en collaboration avec un informaticien de métier. Je mentionne ici une recherche d’envergure, car les coûts engendrés par la participation d’un spécialiste en informatique et le développement d’un outil spécifique peuvent représenter une somme importante qui ne pourrait être assumée par un projet de plus petite envergure.

L’historien est avant tout un historien. Loin de moi l’idée d’être réfractaire au mélange des genres, mais comme l’adage dit : à chacun son métier. Un minimum de connaissance est cependant nécessaire et le métier d’historien (recherche, diffusion du savoir, enseignement, etc.) doit se renouveler en utilisant les formidables outils qui sont maintenant à sa disposition. Mais l’informatique doit rester au service de la discipline historique et non l’inverse.

 

Sources :

RUIZ, Émilien, « Les historiens seront-ils finalement des programmeurs », La Boite à Outils des Historiens, 22 septembre 2011. <http://www.boiteaoutils.info/2011/09/les-historiens-seront-ils-finalement.html> (5 octobre 2011).