Stratégies d’analyse et fouille de données éducatives : des modèles pour guider le travail de fouille

20 avril 2017 par Matthieu Cisel Veille 1078 visites 0 commentaire

Un article repris de https://numpedago.hypotheses.org/84

Je vous propose aujourd’hui de nous attarder sur deux éléments : la « distillation de données pour le jugement humain », et la fouille médiée par des modèles. Cet article s’inscrit dans une série de billets consacrés aux techniques d’analyse en Educational Data Mining (fouille de données éducatives). La lecture des articles précédents est nécessaire pour mieux comprendre la démarche.

Data distillation for Human Judgement

Dans certains cas, les humains peuvent faire des inférences à propos des données, lorsqu’elles sont présentées de manière appropriée, qui vont au-delà de méthodes de fouilles de données automatisées. Les méthodes de visualisation de l’information entrent dans cette catégorie ; elles visent deux objectifs principaux, l’identification et la classification. Dans le premier cas, l’objectif est de permettre à un humain de reconnaître des patterns connus qu’il est néanmoins complexe d’exprimer de manière formelle. La « courbe d’apprentissage » (Koedinger et al., 2010) fait par exemple partie des visualisations classiques en EDM, où l’on représente le nombre d’activités réalisées en abscisse, et la performance (comme le temps de réponse) en ordonnée. La forme de la courbe permet d’identifier dans quelle mesure le modèle qui la sous-tend est approprié, et donc de prendre des décisions en fonctions.

Dans le cas de la classification, l’objet peut être de produire des labels qui seront par la suite utilisé pour développer des modèles prédictifs. Dans ce dernier cas, des segments de données sont affichés de manière visuelle ou textuelle pour être labélisés par des humains. Cette approche a par exemple permis d’accélérer considérablement le développement de modèles prédictifs (Baker & de Carvalho, 2008). Ces différentes démarches peuvent être utilisée pour visualiser des trajectoires d’étudiants au fil de leur parcours, identifier des étudiants qui risquent de décrocher (Bowers, 2010), et intervenir au besoin.

Discovery with Models

Enfin, dans le mode qu’est la découverte avec un modèle, le modèle du phénomène est développé sur la base d’une prédiction, d’un clustering, ou d’un raisonnement humain. Ce modèle est alors utilisé comme base d’une fouille de données. C’est la démarche que l’on emploie lorsque l’on cherche à identifier des comportements comme Gaming the system (Baker et al., 2008 ; Walonoski et Heffernan, 2006). Nous nous proposons ici de nous baser sur un exemple simple issu de la recherche sur les MOOC pour illustrer cette approche. On s’intéresse dans cet exemple à un motif identifié via des entretiens semi-directifs. Nous nous intéressons au concept de rupture dans le suivi d’une séquence pédagogique.

Nous définissons ici comme rupture dans le suivi de la séquence pédagogique, ou simplement rupture, le fait de ne pas suivre la séquence pédagogique de manière linéaire pour une activité donnée, et ce indépendamment du nombre d’activités prescrites. L’ordre dans lequel sont réalisées les activités n’importe pas ici, mais le fait de ne pas en réaliser plusieurs, on dira sauter ou négliger une activité, puis de reprendre la séquence pédagogique à partir d’une activité située en aval dans la séquence pédagogique, est considéré comme une rupture. Cette rupture peut concerner une ou plusieurs activités. Nous parlerons d’arrêt définitif pour désigner le fait qu’un participant interrompt le suivi d’une séquence pédagogique à un endroit donné de la séquence, sans réaliser d’actions sur des éléments en aval dans la séquence.

Au cours de ma thèse, j’ai cherché dans les traces d’interaction de différents MOOC de telles ruptures, en me penchant tantôt sur des devoirs évalués par les pairs, tantôt sur des quiz, dans le cas d’un MOOC nommé Effectuation. Le choix de ces MOOC et des activités choisies est motivé par le faible nombre d’activités évaluées (compris entre six et neuf pour les devoirs évalués par les pairs), et la bonne connaissance des séquences pédagogiques correspondantes, ce qui rend les ruptures éventuelles plus faciles à détecter. L’analyse montre que le fait de ne pas suivre linéairement une séquence minoritaire pour le rendu de devoirs évalués par les pairs, et ultra-minoritaire pour la réalisation des quiz du MOOC Effectuation.

Dans cette approche, nous avons donc dans ce cas de figure à notre disposition un motif préexistant, plus ou moins complexe, qui guide l’ensemble de la démarche de fouille de données. Il ne s’agit pas comme précédemment de faire apparaître des motifs que l’on ne connaît pas en amont, et que l’on découvre lors de la fouille des données. Au passage, on notera que du point de vue des méthodes mixtes, nous sommes à nouveau dans le cas de la méthode séquentielle exploratoire, dans la mesure où les entretiens ont précédé l’analyse quantitative des traces d’interaction.

Ceci conclue notre panorama sur les méthodes d’analyse de données en éducation. J’espère que vous appréciez cette démarche (bah sinon, pourquoi liriez-vous le billet jusqu’à la fin vous répondrai-je). Je ferai néanmoins un dernier petit billet sur la question.

PS : La bibliographie associée à cet article est disponible dans ce billet.

Licence : Pas de licence spécifique (droits par défaut)

Répondre à cet article

Suivre les commentaires : |

Stratégies d’analyse et fouille de données éducatives : des modèles pour guider le travail de fouille

Répondre à cet article

Dans la même rubrique