Innovation Pédagogique et transition
Institut Mines-Telecom

Une initiative de l'Institut Mines-Télécom avec un réseau de partenaires

Les Learning Analytics : contraintes méthodologiques et « gouvernance » éthique des données

Un article repris de http://journals.openedition.org/dms/3739

La discussion, consacrée cette année à la thématique des Learning Analytics, s’ouvre avec quatre premières contributions, celles de Bruno Poellhuber et Normand Roy, de Margarida Romero, de Laetitia Pierrot et de Benjamin Gras. Les trois premiers auteurs sont des enseignants chercheurs connus de la communauté ainsi que du lectorat de DMS. Les deux derniers sont de jeunes chercheurs : Laetitia Pierrot est docteure qualifiée en Sciences de l’information et de la communication (Laboratoire Technè, Université Poitiers) tandis que Benjamin Gras est postdoctorant spécialiste en IA et en LA (Projet ANR DUNE EOLE, Laboratoire Loria, Université de Lorraine). Tous ont une importante expérience des LA, soit qu’il s’agisse de leur discipline principale, soit qu’ils les utilisent à des fins de recherche dans leur domaine : conception et réalisation d’EIAH, études des comportements d’apprenants dans les systèmes de formation partiellement ou entièrement à distance, ou encore analyse des pratiques numériques juvéniles. Ils se saisissent donc de la problématique des LA et des questions posées dans le texte de cadrage (Peraya, 2019) sur la base de leur pratique, de leurs expériences tant professionnelles que scientifiques. Tous s’accordent, à partir de leurs propres travaux, sur la nécessité d’un usage éthique des LA, sur une conscientisation et une participation de tous les acteurs au processus dès ses premières phases. Ils montrent aussi comment ils ont tenté de mettre en œuvre certains de ses principes dans leurs recherches. Dès lors, leurs contributions présentent parfois une dimension vécue, voire narrative. Mais si ces auteurs et ces auteures racontent, jamais ils ne s’en laissent conter.

Parmi les questions soulevées dans le texte de cadrage, celles auxquelles ils tentent de répondre peuvent se structurer autour de deux axes principaux : d’une part la validité des données et d’autre part, le caractère éthique de l’approche « LA » à chacune de ses étapes (conception, recueil, traitement et usage) des données. À cet égard, ils distinguent la transparence de la démarche et la responsabilisation des acteurs, une « bonne gouvernance des données » de la part de ceux qui les récoltent, les traient et les utilisent. Deux champs d’application émergent de leurs travaux : l’analyse des comportements d’apprenants et leur profilage dans les environnements virtuels en formation à distance et les tableaux de bord qui restituent à l’enseignant et/ou l’apprenant une analyse de processus d’apprentissage de ce dernier. Nous ne nous appesantirons pas sur tous les aspects traités par les auteurs, mais nous tenterons de tracer un fil conducteur au travers de leurs quatre interventions.

La validité des données

Cet aspect de la problématique ne fait pas l’unanimité. Pour cette raison qu’il paraît intéressant de mieux comprendre les positions de chacun. S’il existe de « nombreux exemples d’intelligences artificielles qui reproduisent les biais présents dans les données » (Gras, § 7), c’est donc que la construction des instruments de recueil des données est elle-même biaisée comme le démontre l’exemple de « l’algorithme d’apprentissage automatique spécialiste du recrutement d’employés qui a montré un biais contre les femmes, favorisant le recrutement des hommes » (Dastin, 2018, cité par Gras, ibid.). Il est d’autres exemples de discriminations qui se trouvent renforcées par cette approche ou bien d’usages qui peuvent se retourner contre ceux qui, a priori, devraient être les premiers à en tirer des bénéfices. Cette crainte, rapportée par les contributeurs, est d’ailleurs partagée par de nombreux acteurs de terrain par exemple, les enseignants qui redoutent que les données sur l’engagement des apprenants soient utilisées comme moyen d’évaluation des enseignants. Par ailleurs, l’utilisation des LA rencontre une forte opposition des syndicats d’enseignants au Québec (Poellhuber et Roy, § 16). Quant au biais lié au caractère partiel et limité des traces (Ouakrat et Mesangeau, 2016, § 2, cité par Peraya, 2019, § 35), B. Gras ne considère pas que ce soit un frein à l’utilisation des données et des algorithmes, à la recherche et à l’innovation, à partir du moment où le chercheur est conscient de ces limites. Cet argument nous renvoie déjà au deuxième axe de la discussion : la transparence de la démarche et la responsabilisation des acteurs.

Pour Poellhuber et Roy, la prise de position relative au caractère décontextualisé, formel, limité ou partiel des traces serait révélateur de postures disciplinaires distinctes, celles de certains chercheurs en sciences de l’information et de la communication et ceux des sciences de l’éducation et de psychologie. Pour les premiers, il s’agirait en effet d’une perte d’information inhérente de la nature des données qui serait dommageable à l’analyse des processus étudiés, tandis que pour les seconds, cette situation permettrait au contraire « une contextualisation pratique d’actions qui doivent révéler quelque chose sur le processus d’apprentissage (§ 3). Pour ces auteurs, formés aux approches de la modélisation statistique fondée sur le principe « garbage in, garbage out » [1] (§ 3), certes ce risque existe, mais il peut être facilement limité par une approche méthodologique extrêmement réfléchie, par un formatage rigoureux des données qui puisse « leur donner un sens au regard du modèle théorique explicatif qui pourrait être invoqué lors des analyses » (§ 3). On ne peut que partager cette exigence de rigueur qui concerne la « validité conceptuelle » de la démarche qui constitue l’une des conditions de qualité de toute recherche en éducation (Paquay, Crahay et De Ketele, 2006).

Aussi Poellhuber et Roy fondent-il leurs recherches sur l’engagement comportemental des participants à des MOOC, sur une définition claire de celui-ci en termes « de participation et d’indicateurs observables de cette participation. (Molinari et al., 2015, cité par Poellhuber et Roy, § 4). Enfin, ils considèrent que « les traces correspondent à l’enregistrement d’activités posées par l’apprenant, que l’on peut assimiler à des comportements de participation observables » (§ 4). Les traces recueillies seraient alors équivalentes aux observations réalisées dans les classes et considérées « comme des marques d’engagement comportemental ; le regard des étudiants, le fait qu’il sortent leurs manuels, qu’ils écrivent, etc. » (§ 4). Cette prise de position, qui évoque assez clairement une forme de positivisme et de comportementalisme est précisément ce qui fait question et ce qui pourrait remettre en cause la « validité méthodologique » des données elles-mêmes (Paquay et al., 2006). En effet, du point de vue strictement méthodologique, l’observation d’un fait ne livre pas automatiquement le sens que lui attribue celui qui en est l’agent dans le contexte (personnel, académique, social) où il est observé. Certes, dans un environnement de classe réelle, l’observation est plus riche, mais même dans ce cas, les auteurs sont amenés à reconnaître que les traces sont « normalement [2] un signe de l’engagement cognitif de l’apprenant, mais pas toujours. Ainsi, un étudiant qui nous regarde peut penser à toute autre chose. Nous pensons pouvoir faire la même analogie avec les traces. » (§ 4). Or, on le sait, la transparence du signe est un mythe et l’on ne peut assimiler le représenté à son représentant.

Les auteurs rapportent enfin que des conseillers pédagogiques au niveau collégial soulèvent l’intérêt de recueillir aussi des « données qualitatives, permettant en quelque sorte de donner plus de sens aux traces, et de mieux comprendre le contexte dans lequel ces micro-comportements se déroulent » (§ 19). Ce qui semblerait bien conforter l’hypothèse selon laquelle la trace numérique ne donne accès qu’à une partie du processus. Pierrot développe une réflexion et une pratique qui vont dans le même sens : elle observe la construction des pratiques numériques juvéniles et assume le « risque d’avoir une formalisation figée de l’activité » (§ 12). L’auteure explique d’abord que les traces sont diversifiées (volontaires ou non, déclaratives, comportementales, etc.), ce qui suppose que l’on doive trianguler des données de natures différentes pour construire du processus ou du phénomène observé une représentation et une analyse les plus complètes possible. Dans sa recherche doctorale, elle explique n’avoir pas pu se satisfaire de la seule analyse des données numériques : « C’est en combinant cette analyse à des techniques de collecte de données déclaratives que nous avons pu rendre compte des pratiques numériques. » (§ 26) Elle a donc procédé à des entretiens d’explicitation avec un nombre très limité de lycéens (13) afin de « préciser les finalités et les contextes d’usage du numérique, à partir des traces » (ibid.). Mais dès lors, le recueil comme le traitement de données massives deviennent difficiles, voire impossibles.

Ces exemples permettent de clarifier les questions qui se posent à propos de la validité des traces numériques et des réponses proposées. D’un point de vue strictement méthodologique, la validité conceptuelle de la recherche ne garantit nullement la validité méthodologique des données. Ces deux types de validité correspondent d’ailleurs à deux étapes du processus de recherche : respectivement sa conception, et dans une seconde étape, le recueil et le traitement des données. Ensuite, les traces recueillies sont effectivement partielles, lacunaires et décontextualisées et ce à double titre. Premièrement, elles ne rendent compte que d’une partie du processus d’apprentissage qu’elles sont supposées décrire d’où la nécessité de recourir à d’autres données, notamment de nature qualitative à travers des méthodologies adaptées. Deuxièmement, considérer la trace d’une activité comme l’équivalent d’un fait observable revient à déplacer du fait observable à la trace les critiques d’ordre épistémologique portées à l’encontre de toute tentation positiviste.

Un exemple très intéressant de ce point de vue est celui de la chronémie définie par Bruneau (2007, cité par Romero, § 4) comme l’étude de la temporalité des interactions dans un environnement numérique. Romero cite Kalman, Scissors, Gill et Gergle (2013) qui analysent l’influence du délai de réponse dans les interactions sur le jugement de l’autre, sur la collaboration et la confiance. La réalisation extrêmement tardive d’un travail est souvent interprétée – oserait-on dire « naturellement » ? – par l’enseignant comme une difficulté à gérer le processus d’apprentissage dans le temps, comme une difficulté à s’autoréguler et sans doute aussi comme de la procrastination. Ce jugement, qui constitue bien une interprétation des traces recueillies pourrait donc jouer en défaveur de l’étudiant. Romero rappelle à juste titre, ce que savent tous les enseignants aguerris aux dispositifs entièrement ou partiellement la formation à distance : il est parfois très difficile, notamment pour les femmes en reprise d’études, de mener de front leurs vies familiale, professionnelle et académique. Le contexte vécu est donc essentiel pour interpréter les traces recueillies et les analyser sur le plan des comportements. Elle cite aussi les travaux de Westgate, Wormington, Oleson et Lindgren, 2017) qui identifient plusieurs formes de procrastination, parmi lesquelles la « productive procrastination » qui favorise la productivité de l’apprenant et qui, en conséquence, joueraient plutôt en faveur de celui-ci. L’auteure rapporte encore un autre cas intéressant dans une étude antérieure (2010), elle a pu montrer que certains apprenants, se sachant tracés et profilés, cherchent « à produire à des traces dans le but d’améliorer leur représentation envers d’autres étudiants et les enseignants. Pour cela, ils se connectent régulièrement ou interagissent avec différentes ressources ou sur différents forums dans le but d’apparaître comme étant plus actifs » (§ 7).

La validité de la trace numérique, considérée comme un indice de l’activité de l’apprenant, semble donc être d’abord une question de sens : celui que lui donne le chercheur, mais aussi celui que lui donne l’apprenant dans le contexte où il mène l’activité observée. La trace se trouverait donc au centre d’un double processus de sémiotisation. Aussi, il serait sûrement intéressant de repenser la notion de trace à partir de la théorie peircienne du signe et de la trilogie indice, icône, symbole.

Les aspects éthiques : transparence et responsabilisation

À propos des aspects éthiques qu’impliquent les LA, les quatre contributeurs s’accordent : il faut « remettre l’humain au centre du problème » (Gras, § 13), du processus de récolte, de traitement et d’utilisation des données numériques. Ils s’accordent sur l’importance de la transparence de la démarche à chacune de ses étapes et sur la nécessité d’une responsabilisation des auteurs qui se ferait dans le cadre d’une gouvernance responsable des données. B. Gras souligne le « besoin d’explicabilité et de contrôle par l’utilisateur, « la nécessité du maintien du contrôle par l’humain » et l’importance de la « mise en place de formations et de campagnes de sensibilisation des utilisateurs » au fonctionnement des applications » (Zolynski, 2018 cité § 11). La solution passe donc par la compréhension, la maîtrise et l’appropriation des outils numériques et de leur fonctionnement par leurs utilisateurs. Par exemple, l’appropriation des tableaux de bord passe, pour un apprenant, par la possibilité de les personnaliser et de pouvoir afficher les informations qu’ils jugent pertinentes en fonction de leurs besoins spécifiques.

Lors de la conception et de la réalisation des tableaux de bord, Gras propose donc d’intégrer les apprenants au processus à toutes les étapes du processus selon une démarche « éthique par design » inspirée de la notion de « privacy by design » qui est conforme au Règlement européen sur la protection des données (RGPD) se révèle un instrument pertinent dans cette perspective. L’auteur, citant Aloy (2018), signale aussi le serment d’Hippocrate des data scientist qui définit cinq principes qui constituent le cadre d’une démarche éthique pour toute personne qui traite des données. Nous pourrions citer encore la Déclaration de Montréal pour un développement responsable de Montréal [3] dont les objectifs généraux visent à « élaborer un cadre éthique pour le développement et le déploiement de l’IA ; orienter la transition numérique afin que tous puissent bénéficier de cette révolution technologique ; ouvrir un espace de dialogue national et international pour réussir collectivement un développement inclusif, équitable et écologiquement soutenable de l’IA ».

Sur le plan de la collecte des données, Poellhuber et Roy parlent quant à eux d’un « consentement libre et éclairé » des utilisateurs, qui se ferait à l’aide d’un formulaire de consentement « renseignant sur le type d’utilisation qui serait faite des données, dans un langage facilement accessible, ce qui contraste avec les pratiques plutôt obscures des GAFA ». (§ 7 ; Slade et Prinsloo, 2013, cité par Romero, § 6 ). Cependant, concrètement, l’explicitation a priori des buts et des méthodes de recherche pourrait gêner le travail des chercheurs, les contraignant à respecter un plan et une démarche préétablis, voire intangibles, alors que l’on sait que les plans d’une recherche se modifient souvent au cours du déroulement de celle-ci (Pierrot, § 20) [4].

Mais dans tous les cas, ici encore l’exigence de transparence et d’explicitation relatives aux données recueillies, à leur traitement et à leur usage constitue le cœur d’une démarche éthique. Poellhuber et Roy montrent aussi, comme Gras l’a d’ailleurs relevé, que l’anonymisation pure et simple des utilisateurs est bien évidemment impossible dans le cadre de la réalisation de tableaux de bord puisqu’il faut renvoyer l’information aux utilisateurs. Les auteurs envisagent alors de fonder la démarche sur le principe d’autodétermination (Ryan et Deci, 2000, cités § 14) ce qui impliquerait nécessairement de « laisser une large part de contrôle et de choix aux apprenants dans l’utilisation et la configuration des tableaux de bord qui les concernent » (ibid.). Poellhuber et Roy suggèrent aussi de mettre en place une option « opting out » permettant se désinscrire des tableaux de bord plutôt que du processus de collecte des données, ce qui se fait parfois.

Pierrot ne dit pas autre chose lorsqu’elle suggère que l’acculturation aux données est une démarche indispensable, mais qui doit être co-construite et impliquer tous les acteurs. Elle souligne encore, citant les travaux de Guin, Molinari, Lefevre et Michel (2019) l’importance de la dimension interprétative de l’analyse des données : « Parce que l’interprétation génère de la valeur, conceptuelle, sociale ou culturelle, elle prend sa place pour transformer des informations en connaissances. Et, cette interprétation est possible grâce à l’interaction d’acteurs multiples. » (§ 24). L’hypothèse que nous faisions à propos de la nature sémiotique de la trace semble trouver ici des arguments en sa faveur, même si l’élaboration d’un tel cadre reste – à notre connaissance – encore à construire.

On le voit, les expériences des auteurs peuvent différer, mais, comme leurs propositions, elles convergent vers une même finalité étique et déontologique qui implique la compréhension ainsi que la maîtrise et l’appropriation des outils numériques et de leur fonctionnement par leurs utilisateurs.

Licence : CC by-sa

Notes

[1Autrement dit, si les données sont de mauvaise qualité (input), les réponses (output) ne pourront pas être autrement. La première apparition de cette expression est datée de 1957 dans un article relatif au travail des mathématiciens de l’armée américaine travaillant avec les premiers ordinateurs (https://en.wikipedia.org/wiki/Garbage_in,_garbage_out).

[2Nous soulignons.

[4Une lecture attentive du RGPD semble prévoir des exceptions qui rendraient les contraintes plus souples pour les chercheurs et éviteraient ainsi cette situation (Communication orale de O. Aubert, Journées scientifiques de l’Université de Nantes, 21 juin 2019).

Vos commentaires

Répondre à cet article

Qui êtes-vous ?
[Se connecter]
Ajoutez votre commentaire ici

Ce champ accepte les raccourcis SPIP {{gras}} {italique} -*liste [texte->url] <quote> <code> et le code HTML <q> <del> <ins>. Pour créer des paragraphes, laissez simplement des lignes vides.

Suivre les commentaires : RSS 2.0 | Atom