Innovation Pédagogique et transition

Une initiative de l'Institut Mines-Télécom avec un réseau de partenaires

Quelques réflexions sur l’exploration des traces d’apprentissage

7 novembre 2019 par Anne Boyer Distances et Médiations des Savoirs 828 visites 0 commentaire

Un article repris de http://journals.openedition.org/dms/4086

Un article d’Anne Boyer repris de la revue Distance et Médiations des Savoirs, une publication sous licence CC by sa

Dans l’introduction au débat « Les Learning Analytics en question », Peraya (2019) nous propose de nous intéresser aux enjeux actuels des Learning Analytics, interpellant ainsi plusieurs communautés scientifiques, dont celles de la fouille de données et de l’apprentissage statistique.

Je souhaite apporter dans cette contribution au débat le point de vue d’une informaticienne impliquée dans plusieurs projets sur les Learning Analytics, en tant que chercheuse, mais aussi en tant qu’enseignante. Les éléments présentés s’appuient sur des résultats obtenus notamment lors de plusieurs projets autour des Learning Analytics, comme le projet ERASMUS+ D-Transform sur la transformation numérique de l’enseignement supérieur, le PIA e-FRAN METAL sur le déploiement et l’usage de Learning Analytics en collège, le projet PIA DUNE EOLE qui concerne l’enseignement supérieur, ou la convention de recherche que nous avons avec le CNED en enseignement totalement à distance.

Du côté des données

L’exploitation des traces d’interaction avec les outils numériques en situation d’apprentissage permet différents types de retours d’expérience, vers l’apprenant, le tuteur ou le formateur, les pairs, le concepteur de la ressource ou l’institution, le plus souvent sous la forme synthétique d’indicateurs, de prédicteurs, d’outils de visualisation (notamment de tableaux de bord) ou de systèmes d’intervention comme les systèmes de recommandations personnalisées.

Aux nombreux défis auxquels les Learning Analytics sont confrontés s’ajoutent les défis scientifiques liés au développement d’algorithmes à la fois éthiques, performants, répondant aux objectifs qui leur ont été assignés (description, diagnostic, prédiction ou prescription), à partir de l’exploitation automatique des traces collectées.

Rappelons tout d’abord que les données éducatives (Boyer, 2017) ont des caractéristiques qui rendent leur exploitation informatique complexe : elles sont bien sûr hétérogènes (textes en langage naturel, clics, logs, votes, etc.), éventuellement ambiguës (une pause constatée dans les données peut correspondre à une pause réelle de l’apprenant ou à la consultation d’un livre, à une question à un enseignant, etc.), dans des formats divers, car collectées via des dispositifs multiples (plateformes pédagogiques, portail de ressources éducatives, eye tracker, boîtiers de vote électronique, objets connectés, réseaux sociaux…), avec des temporalités différentes (résultats de jury chaque trimestre ou traces d’activités en continu sur une plateforme) et indubitablement massives. L’analyse des données collectées requiert donc des techniques d’exploration et de modélisation complexes, capables d’intégrer leur ambiguïté, leur validité, leur redondance, leur persistance, leur contradiction, leur dynamicité, etc., issues notamment de la fouille de données ou du machine learning.

Les quatre premières contributions qui répondent à Peraya (2019) s’interrogent en particulier sur les données et leur validité. Les exemples qui illustrent les biais liés à la collecte des données rappellent l’importance qu’elles ont : une collecte exemplaire de données relativement à la diversité des comportements observables peut conduire à la reproduction des biais de la société par les algorithmes. De même, une collecte partielle, volontairement ou non, pourrait conduire à une standardisation des comportements produits.

À cette question véritablement centrale de la validité des données, s’ajoute à mon sens celle de l’utilité des données, point qui s’inscrit dans le cadre d’un usage éthique de la donnée collectée et est un élément de réponse à la tentation du « toujours plus de données » évoquée par Pierrot (2019).

En effet, il semble légitime de s’interroger sur les traces réellement indispensables dans un contexte d’apprentissage donné. Schématiquement, l’utilité d’une donnée consiste à déterminer ce que la donnée apporte relativement à ce qu’elle coûte, que ce soit en termes monétaires, éthiques, complexité de collecte ou niveau de performances.

Cela conduit par exemple à se demander s’il n’est pas préférable de se passer de certaines données, parce que leur coût éthique est supérieur au bénéfice qu’elles permettent en termes de performances. De même, s’interroger sur le gain en confiance utilisateur si l’on renonce à certaines données est un élément qu’il convient de mettre en regard avec la perte éventuelle en précision des résultats.

Ce travail incombe légitimement aux concepteurs ou développeurs des algorithmes de fouille de données en ce qui concerne l’évaluation des performances et l’impact de la présence ou non de certaines données. Mais ils ne sont bien évidemment pas les seuls acteurs de la décision qui implique tous les profils impliqués dans un projet de Learning Analytics : les autres acteurs qui permettent de modéliser le coût social, éthique, monétaire ou autre d’une donnée, les utilisateurs qui sont prêts à sacrifier tel aspect au profit de tel autre, etc. La très grande précision d’un résultat de prédiction n’est pas forcément un enjeu majeur pour certains utilisateurs qui peuvent préférer sacrifier la performance du dispositif pour mieux maîtriser les données qu’ils partagent. Mentionnons par exemple que dans un autre domaine bien connu de l’exploitation des traces numériques, la recommandation de films en ligne, une différence de qualité́ pouvant aller jusqu’à 10 % entre deux algorithmes n’est pas perçue par les utilisateurs (Castagnos, 2010).

Connaître l’impact d’une donnée sur le résultat d’un algorithme semble un facteur important pour les utilisateurs : que se passe-t-il si telle donnée est absente, 10 % plus élevée, ou plus basse, etc. Cette « qualification » supplémentaire de la donnée peut jouer un rôle auprès des utilisateurs : en tant qu’utilisatrice, je peux être dubitative que l’on me demande si j’ai des enfants, mais être plus encline à partager avec le système cette information si l’on m’explique qu’elle permet une personnalisation du suivi de mon activité d’apprentissage.

Par ailleurs, ces différents aspects (utilité et impact d’une donnée, maîtrise de la donnée partagée) ne peuvent trouver une réponse générique, ils dépendent des sources de données disponibles, des besoins en performances des utilisateurs et de leur ressenti. Il est en effet parfois souligné dans les échanges avec les utilisateurs l’importance de laisser chacun décider des données qu’il veut bien ouvrir aux algorithmes.

Le contexte dans lequel se situent les activités d’apprentissage d’un apprenant est également une source d’informations essentielle. La modélisation du contexte et son exploitation deviennent donc des champs d’investigation d’intérêt majeur, plus encore dans le cas de la FTLV, quand l’apprenant doit combiner vie professionnelle, vie privée et apprentissage. En effet, détecter le contexte d’un utilisateur peut devenir intrusif dans la vie de l’apprenant, et il apparaît nécessaire de développer des outils de Learning Analytics capables de détecter au travers des traces détectées le contexte de l’apprenant (sans nécessairement le qualifier) et plus encore capable de détecter des changements de ce contexte.

Si l’on parle souvent de l’abondance des données collectées, il faut bien garder à l’esprit qu’elles sont souvent parcimonieuses pour chaque apprenant. Comme en recommandation sociale, les outils de Learning Analytics pallient généralement le manque d’informations sur un utilisateur par l’exploitation des données des autres apprenants. Une autre possibilité est d’aborder le manque de données en recourant à des sources de données différentes, souvent complémentaires et généralement diverses. Se pose alors la question de croiser des sources diverses en nature, temporalité, fiabilité pour mieux modéliser les phénomènes observés.

Comment passer de données multimodales à des données multi-sources ? Ce questionnement « fouille de données » est par exemple abordé dans le projet e-FRAN METAL où l’on traite des Learning Analytics en collège. Les classes sont à effectif limité et l’enseignement est dispensé en présentiel, avec l’usage plus ou moins régulier et important d’outils numériques. Les traces sont alors parcimonieuses et leur exploitation ne peut se satisfaire d’algorithmes de fouille de données usuels (Brun, 2019). On passe alors du Big Data au Small Data, domaine qui suscite de nombreuses recherches actuellement.

Vers une algorithmique bienveillante

Le point suivant que je souhaite aborder concerne la vision des Learning Analytics que nous avons implantée au sein des différents projets menés par l’équipe KIWI du laboratoire LORIA de l’Université de Lorraine.

Tout d’abord, comme dit dans Romero (2019), il est essentiel de ne pas décourager l’apprenant. C’est pourquoi nous avons choisi de mettre en place une algorithmique que je qualifierai de bienveillante, c’est-à-dire une approche qui valorise les efforts et l’engagement de l’apprenant. Nous l’avons fondée sur l’idée suivante : l’étudiant a un score qui caractérise en quelque sorte son implication dans la tâche d’apprentissage qu’il mène.

Ce score est estimé à partir des activités entreprises par l’apprenant, observables au travers des traces qui ont été collectées, des résultats éventuels obtenus, de son implication dans les activités sociales, etc. Toute action est valorisée par une augmentation du score, qui ne peut jamais diminuer, mais peut éventuellement stagner si l’apprenant est inactif.

Le gain en score dépend de l’activité que l’apprenant entreprend et de sa difficulté, du niveau de l’apprenant et du « risque » qu’il prend. Ainsi un élève « moyen » qui réussit un exercice difficile verra son score augmenter davantage qu’un « bon » élève qui fait ce même exercice. Les échanges lors des focus groups avec les étudiants de L1 (Gras, 2019) montrent l’importance qu’ils accordent à cette bienveillance algorithmique.

Par ailleurs, même si notre algorithme détecte avec des performances de très bonne qualité le décrochage futur d’un apprenant (nous avons choisi de minimiser les fausses alarmes : quand un étudiant est repéré en risque de décrochage, il décroche), nous ne nous autorisons pas à l’indiquer sur son tableau de bord personnel. En effet, l’objectif de notre démarche est d’accompagner l’étudiant, pas de le stigmatiser.

La formulation également est importante. Nous ne disons pas un apprenant « Tu as 60 % de chance d’échouer », mais nous nous orientons vers une formulation comme « les années précédentes, 60 % des étudiants qui avaient le même comportement d’apprentissage que toi ont échoué à leur module ».

Enfin, nous ne fournissons aucune information sur un étudiant à l’enseignant. Le seul destinataire du tableau de bord est l’étudiant lui-même. Il peut décider de le consulter ou non, le tableau de bord est consultable à tout moment dès sa mise à disposition sur la plateforme pédagogique. L’apprenant peut vouloir le modifier, en déclarant des informations supplémentaires du type « J’ai fait 3 heures d’exercices hier ». Il peut aussi vouloir le partager avec certains de ses pairs, l’enseignant du cours ou un tuteur, son enseignant référent. C’est de sa seule initiative, c’est valable pour une vue du tableau de bord à un instant donné.

Le tableau de bord conçu dans le cadre du projet METAL suggère à l’enseignant des activités engageantes pour sa classe, ou pour un groupe d’élèves. Ces recommandations sont élaborées notamment en fonction de la charge cognitive estimée de chaque élève d’une classe, de leur désengagement ou au contraire de leur engagement, et bien sûr de l’ensemble des traces disponibles.

L’implication des acteurs

Certaines contributions de la rubrique rappellent la nécessité d’impliquer les acteurs dans leur diversité.

Dans le cadre du projet e-Fran METAL, l’implication des acteurs s’est faite de diverses manières. Tout d’abord lors d’ateliers de co-conception organisés avec les enseignants ou les élèves, dans l’objectif de mieux cerner les besoins des différents usagers des tableaux bord qui sont conçus dans le projet et de favoriser l’acceptabilité des outils produits. Des focus groups ont ainsi été organisés, pour identifier les demandes des enseignants et comprendre les attentes des élèves. Ce travail mené conjointement avec le projet PIA e-FRAN e-TAC, a permis de co-construire les différents outils avec les utilisateurs.

Une demande explicite régulièrement formulée concerne les explications qui doivent accompagner les indicateurs qui alimentent les tableaux de bord : les algorithmes doivent être capables d’expliquer les résultats qu’ils fournissent dans des termes compréhensibles par l’utilisateur (Gunning, 2017), voire d’indiquer quelles sont les données qui ont permis de les obtenir.

Par ailleurs, afin de sensibiliser tous les acteurs, des séminaires de présentation du projet et de ses enjeux ont été organisés par l’académie de Nancy-Metz : séminaire à destination de chefs d’établissement ou des référents numériques des établissements, salons pour les responsables dans les collectivités, les enseignants, les parents d’élèves… L’idée est d’inclure au plus tôt dans le projet tous ceux qui, à un titre ou à un autre, sont concernés afin de recueillir leurs questionnements, suggestions, inquiétudes, etc. et d’y répondre au plus tôt.

L’implication des acteurs est aussi à considérer dans la diversité des profils impliqués et des compétences nécessaires. Dans le cadre du projet ANR DUNE EOLE cité dans Gras (2019), une équipe multi-compétences et multi-profils a été mise en place dès le lancement de l’action sur les Learning Analytics. Ainsi la gouvernance de l’établissement, l’équipe technique en charge des développements au sein de l’université, le délégué aux données, des chercheurs en science des données, des enseignants, des étudiants, des responsables de formation, etc. se rencontrent régulièrement, partagent leurs travaux et leurs interrogations, pour converger vers une solution motivante pour tous et acceptable par tous.

Dans le cadre du projet METAL, des chercheurs de différentes disciplines (informatique, intelligence artificielle, traitement automatique des langues, droit, sciences de l’éducation, psychologie, ergonomie cognitive) collaborent étroitement pour construire une solution éthique et performante de Learning Analytics et étudier l’impact de son déploiement sur les pratiques des enseignants et l’engagement des apprenants. La pluridisciplinarité est ici un facteur essentiel : aborder les Learning Analytics conjointement sous leurs différents aspects est un aspect fondamental qui a été souligné par différents auteurs.

C’est aussi ce point qui a conduit à la création par exemple de la conférence Learning and Students Analytics Conference (LSAC 2019 [1]). Faire dialoguer les acteurs, mais également les communautés scientifiques est un atout majeur du succès d’un projet de Learning Analytics.

Le projet LOLA

Un rapide état de l’art sur les Learning Analytics (notamment la conférence LAK) permet de constater la prédominance du modèle anglo-saxon, précurseur notamment en raison de son rapport à la notion des données personnelles.

Des échanges informels recueillis dans différents séminaires ou conférences, il ressort qu’une difficulté majeure concerne l’accès aux données pour les équipes de recherche. Il est en effet indispensable de disposer de corpus de traces permettant d’apprendre des modèles, de les tester et de comparer des approches sur des données partagées. La difficulté à collecter des traces numériques dans le cadre par exemple du projet METAL en est une excellente illustration, et ceci malgré tout le soutien et l’action de l’académie. De même, une fois ce travail de collecte réalisé, il semble vain de laisser d’autres chercheurs consommer la même énergie pour obtenir des données équivalentes. L’idée de partager et mutualiser les corpus de traces collectées a donc émergé, dans un objectif de rationalisation des collectes de traces, qui sont souvent complexes, longues et fastidieuses. De plus, un facteur important est aussi la diversité des situations d’apprentissage, ce qui peut se faire par la mutualisation des corpus créés.

Les institutions éducatives expriment le besoin d’informations notamment autour des aspects méthodologiques, déontologiques et éthiques, techniques, standardisation... L’intérêt de retours d’expérience (hub d’expériences) pour partager sur les expérimentations menées est profitable aux différents acteurs institutionnels, mais également aux enseignants qui souhaitent partager leur utilisation des Learning Analytics en situation pédagogique. Enfin, la possibilité d’accéder à une boîte à outils libres, afin d’amorcer une mise en œuvre réelle, faciliterait le travail de tous.

C’est pourquoi le LORIA propose la mise en place du projet LOLA (Laboratoire Ouvert en Learning Analytics) lancé en septembre 2018 et désormais soutenu par le ministère de l’Éducation nationale et de la jeunesse. Le projet LOLA aborde les Learning Analytics au travers de cinq entrées principales :

– Les données : LOLA mettra à disposition des équipes de recherche françaises ou des institutions éducatives des corpus de données pour tester leurs modèles et les évaluer sur des corpus partagés.

– Les modèles : LOLA mettra à disposition de la communauté éducative des modèles qui auront été développés dans différents projets (notamment les projets PIA e-éducation Péricles, DUNE EOLE, e-Fran METAL.. ) qui sont développés en open source, et que les institutions éducatives pourront tester sur leurs jeux de données et utiliser dans leur propre contexte applicatif.

– Les applications : différents outils de visualisation seront présentés, avec le contexte applicatif dans lequel ils ont été développés et utilisés. Si des retours d’usage sont disponibles, ils seront présentés, mettant en avant les avantages et les inconvénients de chacun selon les contextes applicatifs.

– Les évaluations : différents indicateurs seront fournis, permettant de réaliser un tableau de bord ou de calculer un score agrégé. Ces différents indicateurs auront été développés et testés dans le cadre de différents projets ou collaborations, et seront documentés.

– L’accompagnement : il existe un réel besoin en documentations, guides... Cette section présentera différents types d’accompagnement, destinés à des cibles différentes. C’est là que seront rassemblés le blog CELA, la cartographie de la recherche, les guides qui sont réalisés dans le cadre des projets (notamment METAL et EOLE), la charte juridique, informations issues des grandes organisations du domaine comme SURF aux Pays-Bas ou le JISC au Royaume-Uni, ECAR d’Educause ou SOLAR aux USA sera aussi créé dans cette partie un lieu de dépôts de retours d’expériences : enseignants, étudiants, institutions pourront venir décrire leurs actions et leurs impacts, afin de partager leur expérience.

Initiée par l’Université de Lorraine, cette plateforme a vocation à accueillir des contributions d’autres acteurs des Learning Analytics : des corpus issus d’autres plateformes ou d’autres cas d’usage, des modèles et des algorithmes, des outils. L’objectif est d’avoir à terme une plateforme qui soit un lieu d’échange et de partage pour une communauté française de recherche qui se structure, un lieu d’appropriation et d’accompagnement pour les institutions éducatives qui s’interrogent, un lieu de sensibilisation et d’information pour les enseignants qui expérimentent. Le travail de développement technique est en cours de finalisation, une politique de rôles et des scenarii d’usage sont proposés et vont faire l’objet de discussion avec les communautés concernées.

Conclusion

L’enseignante que je suis expérimente avec des étudiants de L1 le tableau de bord d’activités qui a été conçu dans le projet DUNE EOLE. Il sera accessible dans une quinzaine de jours pour les presque 120 étudiants qui suivent le cours d’algorithmique que je donne, quand les premières traces auront pu être collectées et analysées automatiquement.

Seuls mes étudiants auront accès à leur tableau de bord personnel, s’ils le souhaitent (accès par la plateforme pédagogique par une action volontaire) et uniquement s’ils le souhaitent. Je ne les verrai pas, sauf s’ils m’en donnent le droit dans le cadre d’une demande de conseils ou d’assistance. Cette démarche s’inscrit dans une politique d’accompagnement de la transition Lycée-Université, dans le cadre d’un dispositif de soutien et de remédiation (cours en présentiel, cours en ligne, tutorat, accompagnement personnalisé, enseignants référents, tests d’auto-positionnement, etc.) mis en place dans la formation où j’enseigne. Cette mise à disposition du tableau de bord personnel est réalisée conjointement avec une formation rapide à son usage : une présentation de l’outil, de l’interprétation des indicateurs est donnée à tous mes étudiants, en même temps qu’une présentation de la plateforme pédagogique. Bien évidemment, le dispositif respecte la réglementation en vigueur, chaque étudiant pouvant exercer ses droits.

À la remarque sur l’industrialisation de la formation qui a été faite, je préfère parler au vu de mon expérience personnelle au contraire d’une formation au plus près des besoins réels des étudiants, dans un processus d’autonomisation et d’accompagnement personnalisé.

Bibliographie

Boyer, A. (2017). Éducation et analyse de l’apprentissage. Dans M. Bouzeghoub et R. Mosseri (dir.), Les Big Data à découvert (p. 196-197). Paris : CNRS.

Brun, A., Bonnin, B., Castagnos, S., Roussanaly, A. et Boyer A. (2019, sous presse). Learning Analytics Made in France : The METALproject. International Journal of Information and Learning Technology, 3(36).

Castagnos, S., Jones, N. et Pu, P. (2010). Eye-Tracking Product Recommenders’ Usage. Dans Proceedings of the 4th ACM Conference on Recommender Systems (RecSys 2010) (p. 29-36), (Barcelone Espagne, septembre). Récupéré le 10 septembre de https://hci.epfl.ch/wp-content/uploads/publications/2010/castagnos_recsys2010.pdf.

D-Transform (2016). Projet ERASMUS+ D-Transform : Transforming universities for the digital age. Récupéré le 10 septembre 2019 de : http://www.dtransform.eu/fr/

DUNE EOLE (2018). Projet ANR DUNE EOLE : Un engagement pour ouvrir l’éducation. Récupéré le 20 mai 2019 de http://www.dune-eole.fr/

e-FRAN METAL (2018). Projet e-FRAN METAL : Modèles et Traces au service de l’Apprentissage des Langues. Récupéré le 10 septembre 2019 de http://www.metal.loria.fr

Gras, B. (2019). Éthique des Learning Analytics. Distances et médiations des savoirs, 26. Récupéré le 15 août 2019 de https://journals.openedition.org/dms/3499

Gunning, D. (2017). Explainable artificial intelligence (xai). Advanced Research Projects Agency (DARPA/I20). Récupéré le 10 septembre 2019 de https://www.darpa.mil/attachments/XAIProgramUpdate.pdf

Peraya D. (2019). Les Learning Analytics en question. Distances et médiations des savoirs, 25. Récupéré le 4 mai 2019 de http://journals.openedition.org/dms/3485

Pierrot, L. (2019). Les LA : des réponses et des promesses. Distances et médiations des savoirs, 26. Récupéré le 15 août 2019 de : https://journals.openedition.org/dms/3499

PIA e-FRAN e-TAC (2019). Projet e-FRAN e-TAC : Promouvoir l’apprentissage collaboratif grâce aux interfaces tangibles et augmentées. Récupéré le 10 septembre 2019 de http://e-tac.univ-lorraine.fr

Romero, M. (2019). Analyser les apprentissages à partir des traces. Distances et médiations des savoirs, 26. Récupéré le 15 août 2019 de https://journals.openedition.org/dms/3499

Référence électronique

Anne Boyer, « Quelques réflexions sur l’exploration des traces d’apprentissage », Distances et médiations des savoirs [En ligne], 27 | 2019, mis en ligne le 13 octobre 2019, consulté le 07 novembre 2019. URL : http://journals.openedition.org/dms/4086

Licence : Pas de licence spécifique (droits par défaut)

Notes

[1] www.lsac2019.org, pour sa troisième édition.