Innovation Pédagogique et transition
Institut Mines-Telecom

Une initiative de l'Institut Mines-Télécom avec un réseau de partenaires

Transcribe Bentham : recherche historique et crowdsourcing

Un article repris de https://ahl.hypotheses.org/344

par Gauthier Herbille, Jeremy Mazet et Axel Petit

Transcribe Bentham est une initiative de l’University College of London (UCL). Créée en 2010, il s’agit d’une ramification du Bentham Project initié en 1958 (ou au début des années 1960) également par UCL. Un historique du projet est proposé sur la page « à propos » de son site, et nous permet d’en reprendre ici les principaux éléments. L’objectif initial était de transcrire l’ensemble des manuscrits du philosophe anglais Jeremy Bentham, soit environ 600 000 manuscrits et folios, pour ensutumblr_ngbcbzkpm71tcdrhto1_1280ite les éditer et les rendre accessible. Cependant, le nombre de documents était tellement important que les responsables du projet furent amenés à chercher des solutions pour être plus rapide afin que les coûts de leur transcription ne soient pas exorbitants. C’est ainsi qu’est née l’idée d’un crowdsourcing sous l’impulsion de Philip Schofeld, directeur du comité Bentham de l’University College of London. L’idée lui fut soufflée par Martin Moyle, un ami travaillant à la bibliothèque de l’UCL. Ce dernier proposa alors d’établir le projet de crowdsourcing sur la base d’un partenariat entre le projet Bentham, la bibliothèque de l’UCL, son centre d’humanités numériques (UCLDH) et le centre informatique de l’université de Londres (ULCC). L’initiative découla ainsi d’un premier échange auquel participèrent, outre Philip Schofeld et Martin Moyle, Melissa Terras (pour l’UCLDH) et Richard Davis (pour l’ULCC).

Le fonctionnement de Transcribe Bentham

Il s’agit d’une collaboration à l’échelle mondiale : chacun peut participer au projet en s’inscrivant sur le site de Transcribe Bentham. Le fonctionnement est ensuite assez simple : un manuscrit est choisi par la personne inscrite en fonction de la chronologie, de la difficulté ou de la thématique et celle-ci peut alors transcrire son manuscrit de Bentham. Une fois le manuscrit sélectionné, la personne est redirigée vers une interface où elle pourra commencer à transcrire. L’écran y est scindé en deux parties, à droite se trouve l’exemplaire numérisé, à gauche une zone de texte à compléter en fonction de sa lecture :

Fenêtre de transcription – Capture tirée de Tim Causer & Valerie Wallace, « Building A Volunteer Community : Results and Findings from Transcribe Bentham« , DHQ, 6 (2), 2012

 

Cependant, chacun ne transcrit pas comme il le souhaite. Des règles strictes et communes de transcriptions doivent être respectées pour faciliter l’édition. Un manuel est également à la disposition des contributeurs. Il permet, par exemple, de savoir comment retranscrire les ratures, les commentaires, etc. Chaque transcription effectuée permet de compléter la « barre de transcription » qui indique la progression générale de l’œuvre de Bentham.

Barre de progression du projet début décembre 2016

Le système d’encodage XML TEI est utilisé dans le projet : celui-ci permet notamment une modification permanente du texte encodé, mais surtout il facilite les échanges des textes entre individus ainsi que le traitement sur les plateformes numériques. En effet la Text Encoding Initiative propose une norme collective lié à la représentation des textes numériques. Ce procédé, né à la fin des années 1980, est très utilisé dans les sciences humaines, sociales et/ou linguistiques. Dans les fait il s’agit d’un langage de description de document, sous la forme de balises dans un schéma XML (Extensible Markup Language), afin que les textes soient lisibles par les machines. D’après le site du consortium TEI, depuis 1994 ce schéma est largement utilisé dans nombreuses institution universitaires et culturelles (bibliothèques, musées, universités…)1.

Réception et limites du projet

La distinction entre spécialistes et non-spécialistes

Le projet soulève de nombreuses questions, à commencer par sa rigueur scientifique. En effet, la transcription est une activité qui nécessite un bagage universitaire conséquent pour comprendre les nuances, les pertinences d’un texte, les problématiques soulevées. Ainsi on peut s’interroger sur le statut des transcriptions réalisées par des utilisateurs qui ne disposent pas tous de ce bagage, dans un projet dont le but premier reste l’édition, numérique ou papier, des œuvres complètes de Jeremy Bentham. Un processus de validation a été mis en place par les responsables du projet. Ainsi, les transcriptions sont revérifiées par les chercheurs de l’UCL qui modifient le texte si besoin et le codage XML. Le texte est transmis au service d’édition après avoir été étudié par un nombre conséquent d’utilisateurs : c’est ainsi la comparaison des différentes transcriptions qui permet d’obtenir un résultat fiable. Le manuscrit est ensuite bloqué dans le Transcription Desk où il reste disponible pour d’autres utilisateurs si le résultat est jugé insuffisant par les chercheurs. Par ailleurs, tous les manuscrits de Bentham ne sont pas présents sur le site, les manuscrits avec une écriture plus difficile sont transcrits directement par les chercheurs (en parallèle du crowdsourcing).

Le projet soulève toutefois d’autres interrogations. D’abord à propos de l’identification des responsabilités en cas d’erreur : le « coupable » est-il celui qui a transcrit le texte ou le comité de correction ? Ensuite, c’est une question plutôt d’ordre d’éthique qui se pose. En effet, dans certains cas la mise en pratique d’un crowdsourcing peut priver d’autres personnes d’un emploi rémunéré. Dans notre cas il s’agit des archivistes paléographes qui auraient pu travailler sur les œuvres de Jeremy Bentham mais qui se retrouvent en concurrence avec une foule de contributeurs bénévoles. Pour illustrer ceci on peut se référer aux travaux d’Antonio Casilli qui parle de Digital Labor, le terme semble assez difficile à définir et ne possède pas réellement d’équivalent en français mais on pourrait tenter de le définir comme l’ensemble des activités numériques quotidiennes qui s’exercent sur l’ensemble des plateformes sociales, des applications mobiles ou encore des objets connectés. Tout cela n’est pas aussi simple bien sûr, le sujet prend en compte des réflexions et des critiques néomarxistes mais aussi des références aux travaux de l’anthropologue Marcel Mauss sur la distinction entre archaïsme et civilisation. Toutefois, ce qui nous intéresse et qui illustre notre sujet est l’extrait suivant de Qu’est-ce que le Digital Labor ? co-écrit avec Dominique Cardon :

« Elle passe par une dénonciation de la précarité croissante des producteurs de contenus, face à cette marchandisation de leurs contributions. Quel type de pression salariale s’exerce dans les secteurs les plus divers (journalisme, industries culturelles, transports, etc.) par la création d’une armée de réserve de « travailleurs qui s’ignorent », convaincus d’être plutôt des consommateurs, voire des bénéficiaires de services gratuits en ligne ? »2 .

On peut voir dans ce passage assez explicite que le type d’interrogations évoqué précédemment sur le projet Transcribe Bentham est une réalité qui questionne le monde scientifique.

La médiatisation du projet

Le projet bénéficie de comptes twitter et facebook. Ils sont régulièrement mis à jour. Au 23 octobre 2016, on y compte environ 2 300 followers et 586 mentions « j’aime ». On peut remarquer qu’ils semblent dans la « norme » des projets historiques de cette ampleur : à titre de comparaison le projet Criminocorpus possède 3200 mentions « j’aime » (6x plus) et 1800 followers (500 de moins donc) ou encore la First World War Studies Society, porteuse d’une bibliographie collaborative sur l’histoire de la Grande Guerre, suivie par 888 personnes sur Facebook et 3000 sur twitter, des chiffres donc relativement proches. L’utilisation de ces réseaux par l’équipe du projet Transcribe Bentham ne semble pas d’abord avoir pour but de faire connaître le projet ou de le mettre en avant, mais plutôt de garder le contact avec les contributeurs.

On peut cependant noter qu’il y a quand même eu une certaine campagne de publicité de la part de l’équipe de Transcribe Bentham à travers la diffusion de communiqués de presse, dépliants, de vidéos, de mailing. Cette campagne a porté ses fruits puisque le projet est connu dans plus d’une dizaine de pays. Certains médias à large audience ont écrit sur Transcribe Bentham, notamment le New York Times (il y avait 11 visites sur le site du projet le 26 décembre, la veille de la parution de l’article, contre 1140 le lendemain, jour de parution). Grâce à cette médiatisation à son lancement, le projet fût connu par le grand public, les universitaires, les archivistes et même les bibliothèques. On peut également considérer cela comme une grande réussite dans la mesure où le budget alloué était de 1 000 £ et de seulement 6 mois d’essai pour la publicité3 .

Par ailleurs, Transcribe Bentham est un projet reconnu et récompensé. Régulièrement sujet de publications et de discussions, depuis 2010 le projet a beaucoup apporté à la recherche sur Bentham. En décembre 2016, on compte cinquante deux articles publiés dans la presse ou sur des blogs à propos du projet, tandis que ses coordinateurs on publié six articles dans des revues scientifiques et un ouvrage. Intitulé Jeremy Bentham’s Prison Cooking : A Collection of Utilitarian Recipes, ce dernier a été publié en 2015 à partir de manuscrits transcrits dans le cadre du projet. La viabilité du sujet et son efficacité sont régulièrement mises en avant sur le blog du projet, qui a d’ailleurs gagné un prix « Ars Electronica » en mai 2011. Par ailleurs, le projet fait parti du projet READ (Recognition and Enrichment of Archival Documents) financé par le programme européen Horizon 2020 pour l’innovation et la recherche, qui a pour but de mettre en avant des projets innovants de recherches, que ce soit par leur pratique ou le sujet traité.

Une réussite en demi-teinte ?

Il est indéniable que le projet Transcribe Bentham réussit sur certains points. C’est, par exemple le cas en ce qui concerne la transcription sur le plan quantitatif : en janvier 2012, 3 302 manuscrits de Bentham étaient transcrits ou partiellement transcrits. Mais sur d’autres plans le résultat est plus mitigé. Les administrateurs constatent4 ainsi, par exemple, que si le nombre de personnes qui se prend au jeu de la transcription semble important, la plupart des contributeurs, n’ont, dans les faits, participé qu’une seule fois. Ainsi, pour la majorité des participants, l’investissement est faible, voire inexistant sur le long terme. Il semblerait que par manque de temps et de moyens les administrateurs n’ont pas pu résoudre ce problème de fidélisation des contributeurs, phénomène accentué par la complexité lié à l’encodage ou la transcription.

De plus la plupart des membres du projet ne semble pas interagir entre eux : un ensemble de personnes qui travaillent sur un projet commun sans qu’il y ait concertation. À la suite d’une enquête proposée par les administrateurs à leur communauté, l’un des problèmes régulièrement évoqué par les contributeurs était ce manque de relations sociales. Un point important était que les contributeurs souhaitaient qu’il existe un service d’entre aide entre les contributeurs. Le principe serait globalement celui d’une liste de contacts. Les coordinateurs du projet ont tenté de mettre en place plusieurs mesures pour palier ce problème, notamment un système de classement. Le site envisage également à l’avenir de mettre en place des statuts de modérateurs pour les contributeurs bénévoles afin que ceux-ci se sentent reconnus et puisse ainsi à leur tour aider à l’amélioration de la cohésion de la collectivité.

Il faut toutefois noter que cet absence de « fidélisation » de la foule de contributeurs n’est pas forcément considérée comme une mauvaise chose par les administrateur du projet. En effet, ils constatent que, comme pour d’autres projets de crowdsourcing, la majorité du travail est souvent effectuée par une minorité d’utilisateurs actifs. Toutefois, constatant qu’ils dépendent de ce groupe de contributeurs très actifs, ils souligne que s’ils ne veulent pas les perdre ils doivent développer les moyens adéquats pour les soutenir. Le contact entre ce groupe très actif et l’équipe d’administration du projet est obligatoire. Et c’est là que se trouve l’explication de la fréquentation des réseaux sociaux : en effet ceux-ci ont pour but de permettre un contact plus facile avec leurs « paléographes » afin de structurer et d’animer cette communauté.

Toutes ces stratégies permettent de soutenir le groupe actif, en lui faisant comprendre que l’on reconnaît son travail et qu’il dispose de l’attention des administrateurs du projet. Cela permet aussi de pérenniser Transcribe Bentham en lui assurant une base de travailleurs efficaces. On pourrait donc dire que la politique que mène les administrateurs du projet Transcribe Bentham repose sur un point important : il est plus facile de gérer, économiquement et logistiquement, une communauté peu nombreuse qui travaille beaucoup qu’une communauté nombreuse qui travaille peu.

Réflexion épistémologiques

La philosophie de Bentham dans le projet

Jeremy Bentham est un philosophe anglais de la fin du XVIIIe siècle connu pour avoir théorisé l’utilitarisme. Il affirme qu’il ne peut y avoir de confit entre l’intérêt de l’individu et celui de la communauté, car si l’un et l’autre fondent leur action sur l’utilité, leurs intérêts seront identiques. Son principe se retrouve ici mis en place dans ce projet. En effet, dans le cas présent, l’intérêt de l’individu, qui est de pratiquer de la paléographie ou d’apporter une contribution à un travail scientifique de plus grande ampleur, rejoins l’intérêt de la communauté qui est de transcrire l’intégralité des œuvres de Jeremy Bentham. Ainsi les deux acteurs se rencontrant, tout ceci aboutira sur le long terme à une transcription complète des œuvres de Bentham. Dans ce projet il est indispensable que des contributeurs se mettent à l’œuvre, en effet il faut avoir en tête que dans ce genre de programme si l’un des deux partis abandonne le projet, c’est l’ensemble qui s’effondre.

On peut donc se demander si ce projet d’humanités numériques peut vraiment être viable sur le long terme ? Le projet gardera-t-il de son intérêt et l’UCL et son équipe de chercheurs continueront ils de financer l’hébergement internet de ce travail, surtout lorsque l’on pense au nombre d’acteurs concernés ? Par ailleurs, peut-on mettre les transcriptions sur le même niveau (dans le sens collaboratif) alors que le projet repose sur une somme d’individualités (chacun à son niveau) ? Cela n’est pas sans rappeler les distinctions sociologiques d’holisme et d’individualisme méthodologique. Le projet Transcribe Bentham doit il être expliqué comme étant un ensemble de phénomènes collectifs qui peuvent être décrits et expliqués à partir des propriétés et des actions des individus et de leurs interactions (individualisme méthodologique) ou alors doit-on voir le projet comme un ensemble indivisible où la somme des individualités est négligeable (holisme) ? Effectuer cette distinction c’est essayer de comprendre comment aborder, « juger » la qualité du travail rendu par le projet Transcribe Bentham.

En route vers une nouvelle histoire ?

Une des questions qui peut se poser autour du projet Transcribe Bentham est : Peut-on voir à travers celui-ci l’avènement d’un nouveau style de recherche ? En effet, on se rapproche d’une plateforme de travail proche de Wikipédia (sur la forme), c’est-à-dire le crowdsourcing. Comme nous l’avons dit précédemment il y a une vérification du travail effectué par des professionnels mais toutefois il peut être légitime de se poser plusieurs questions. Quelle valeur scientifique accorder au résultat final ? Ce qui fait se poser cette question est la présence de non-spécialiste dans le projet. Quel rôle peut-il et quel rôle doit-il jouer dans la recherche ? Nous avons ici une redéfinition de la frontière entre monde universitaire « spécialiste » et société « non spécialiste-profane ».

Sur ce point on peut citer les travaux de Patrice Flichy sur Le sacre de l’amateur5. Dans le compte rendu qu’elle donne de cet ouvrage, Marlène Dulaurans résume relativement bien l’idée en expliquant :

« ‘Les quidams ont conquis internet’. Phrase d’introduction de son ouvrage Le sacre de l’amateur , Patrice Flichy a choisi de prendre le contre-pied d’Andrew Keen et de ses réflexions sur l’univers sauvage du web 2.0, pour nous présenter au travers de trois chapitres, un internet de masse dans lequel l’amateur s’impose comme la figure emblématique d’une nouvelle forme d’expertise. À mi-chemin entre l’ignorant et le professionnel, l’amateur du web contemporain s’appuie aujourd’hui sur sa compétence, acquise notamment par l’expérience, pour rivaliser avec les experts »6.

Finalement, plus que sa méthode de travail, ce qui est remis en question dans le projet Transcribe Bentham c’est le rôle même de l’historien. Est-il réellement indispensable ou l’ensemble de la société de non-spécialiste peut-elle effectuer un travail de qualité similaire ? Bien sûr nous avons vu que les travaux jugés les plus difficiles étaient conservés par les membres de l’UCL. Mais ceci nous invite à nous interroger sur un autre concept, théorisé par James Surowiecki, qui est celui de « sagesse des foules ». Il postule que la moyenne des évaluations d’un groupe (qui comprend donc une différence de niveaux) de non spécialistes assez important, sera plus précise que l’évaluation d’une poignée d’experts7.

Nous pouvons donc nous demander si ce principe ne pourrait pas prendre de nouvelles formes et s’adapter à notre discipline ? N’y aurait-il pas justement, par la grande diversité de contributeurs, un travail qui serait de meilleur qualité (même si il peut dans quelques cas être très mal effectué) que celui d’une poignée de paléographes confirmés car ces derniers limités par leurs nombres et peut être lésinant des détails qui peut être dans une plus grande foule auraient été aperçus ? À travers ce projet se pose finalement la reconfiguration des approches traditionnelles de la recherche. Comme le note Ghita Benotmane : « Il n’est pas si fou, après tout, d’imaginer que la recherche puisse aussi être construite par ceux pour qui elle est finalement destinée : la société des non spécialistes »8

Le dernier point important concerne la volonté d’intégrer Transcribe Bentham dans des programmes scolaires, qu’il s’agisse des doctrines de Jeremy Bentham pour des cours de philosophie ou en tant qu’exercice de paléographie. On a donc tout un axe qui se construit autour du philosophe. Derrière les transcriptions des œuvres de Jeremy Bentham se trouve ainsi une volonté de promouvoir ses idées. Toutefois une question d’ordre politique (car elle repose la question d’un débat animé entre politiciens et spécialistes : qui doit choisir le contenu du programme ?) et scientifique (de part la question de la rigueur que l’on a pu voir précédemment) se pose : est-ce que la promotion de ces idées dans un curriculum scolaire est-elle envisageable alors que le travail est en partie produit par des non-spécialistes ?

*

Pour conclure on peut dire que le projet Transcribe Bentham montre qu’il existe peut-être une véritable alternative à la recherche avec le principe du crowdsourcing. En effet on peut voir qu’il existe une base de contributeurs solides qui sont capables de se livrer à des tâches relativement complexes. Une grande partie de ces bénévoles sont des étudiants, des chercheurs, des personnes avec certaines compétences informatiques mais aussi des retraités et surtout des paléographes (professionnels ou non). Toutefois pour vivre ce projet a dû s’appuyer sur une certaine publicité, une certaine équipe de gestion et plusieurs outils informatiques.

Transcribe Bentham est aussi une invitation à une réflexion sur de nouvelles approches de la recherche. On peut notamment l’illustrer avec les cette distinction entre le spécialiste et le non-spécialiste (sacré-profane). Toutefois, aussi complexe soit cette relation, elle est un projet enrichissant tant dans son fond que dans sa forme. Cela fait maintenant sept années que le projet perdure.

On peut toutefois s’interroger sur son avenir : continuera-t-il a recevoir des financements suffisants pour perdurer ? En effet un projet de cette ampleur nécessite des fonds importants, pour payer les serveurs, les équipes de chercheurs, etc, et il est logique de se demander si des fonds seront toujours alloués au projet. Bien entendu, il est peu probable que le projet se termine avant la réalisation de son objectif final, surtout après 7 ans. Toutefois la question mérite d’être posée car elle s’inscrit dans une dynamique plus vaste que la simple volonté de l’équipe de recherche. Cette dernière est soumise à l’allocation budgétaire de son université et celle-ci dépend elle même du budget lié à la recherche. Elle est donc victime des fluctuations politiques, aux décisions prises par le gouvernement anglais. En cas de restriction budgétaire (la situation est assez complexe à visualiser, en plus à cela vient s’ajouter les derniers événements géopolitiques qui touchent l’Angleterre dont notamment le Brexit) pourquoi l’UCL privilégierait le projet Transcribe Bentham plutôt qu’un autre ?


Crédit image de une : Capture d’écran d’un manuscrit transcrit sur la plateforme Transcribe Bentham (JB/027/162/001)


  1. Pour plus d’information sur la TEI, voir le site du consortium. Pour une réflexion sur l’usage de la TEI dans le cadre d’un projet d’encodage de source historique, voir : Gautier Poupeau, « Réflexions sur l’utilisation de la TEI pour coder les sources diplomatiques à partir de l’exemple du Cartulaire blanc de l’abbaye de Saint-Denis », Le Médiéviste et l’Ordinateur, IRHT, 2004 – Accessible sur HAL-SHS
  2. Antonio A. Casilli et Dominique Cardon, Qu’est-ce que le Digital Labor ?, INA éditions, 2015, p. 16 – extrait publié en ligne dans « Qu’est-ce que le Digital Labor ?« , InaGlobal, 7 septembre 2015 
  3. Informations tirées de Tim Causer & Valerie Wallace, « Building A Volunteer Community : Results and Findings from Transcribe Bentham« , Digital Humanities Quaterly, vol. 6, n°2, 2012
  4. Les informations de cette section sont tirées de Tim Causer & Valerie Wallace, « Building A Volunteer Community… » op. cit.
  5. Patrice Flichy, Le sacre de l’amateur. Sociologie des passions ordinaires à l’ère numérique, Paris, Le Seuil, 2010
  6. Marlène Dulaurans, « Patrice Flichy. Le sacre de l’amateur. Sociologie des passions ordinaires à l’ère numérique, Seuil, 2010 », Communication et organisation, 39, juin 2011, p. 257-259
  7. James Surowiecki, Joël Rosnay de Elen de Riot, La Sagesse des foules, Paris, Jean-Claude Lattès, 2008
  8. Ghita Benotmane, « Je transcris, tu transcris, nous crowdsourçons : le projet Transcribe Bentham », Introduction aux humanités numériques, 7 novembre 2012

Licence : Pas de licence spécifique (droits par défaut)

Répondre à cet article

Qui êtes-vous ?
[Se connecter]
Ajoutez votre commentaire ici

Ce champ accepte les raccourcis SPIP {{gras}} {italique} -*liste [texte->url] <quote> <code> et le code HTML <q> <del> <ins>. Pour créer des paragraphes, laissez simplement des lignes vides.

Suivre les commentaires : RSS 2.0 | Atom