Modélisation prédictive et découverte de structure, deux classiques de la recherche en Educational Data Mining

16 janvier 2017 par Matthieu Cisel Veille 940 visites 0 commentaire

Un article repris de https://numpedago.hypotheses.org/71

Le billet d’aujourd’hui est consacré à deux approches utilisées en EDM lors d’analyses quantitatives : la modélisation prédictive d’une part, et la découverte de structure d’autre part. Cet article s’inscrit dans une série de billets consacrés aux techniques d’analyse en Educational Data Mining (fouille de données éducatives). La lecture des articles précédents est nécessaire pour mieux comprendre la démarche.

Modélisation prédictive

Dans le cas de la modélisation prédictive (predictive modeling), l’objectif est de développer un modèle qui infère sur un aspect particulier des données, comme une variable dite « dépendante », à partir d’une combinaison plus ou moins complexe de variables dites « indépendantes ». Pour valider un modèle, l’approche consiste généralement à bâtir un modèle sur la base d’une partie de la base de données, qui peut par exemple inclure 90% des étudiants, et de tester ledit modèle sur une autre partie de la base de données, comme les 10% d’étudiants restants. Les modèles prédictifs peuvent servir à prédire des événements futurs (Dekker et al., 2009), ou prédire des variables qu’il n’est pas possible de collecter en temps réel, lorsqu’un instrument de collecte est trop intrusif.

L’estimation latente de connaissance constitue un autre exemple récurrent dans le domaine de l’EDM. Il s’agit de prédire les connaissances et compétences spécifiques d’un étudiant sur la base de leurs actions au sein d’un dispositif. Cette démarche diffère sensiblement des modèles psychométriques usuels du fait de l’interactivité qui la caractérise, dans la mesure où les connaissances de l’étudiant sont en perpétuelle évolution au sein du dispositif. On recensera le Bayesian Knowledge Tracing, ou BKT (Corbett & Anderson, 1995), la Performance Factors Analysis (PFA) parmi les exemples les plus connus (Pavlik, Chen, & Koedinger, 2009), ou la théorie de la réponse à l’item dans les approches psychométriques (Embretson & Reise, 2013).

Structure Discovery

Dans le cas de la découverte de structure (Structure Discovery en anglais), il n’y a pas une variable en particulier qui focalise l’attention du chercheur, contrairement aux modèles prédictifs. Le chercheur tente d’identifier des structures qui émergent naturellement des données. Le clustering, l’analyse factorielle, l’analyse des réseaux sociaux, la découverte de la structure du domaine font partie des techniques classiques de la découverte de structure.
L’objectif du clustering est de trouver dans un jeu de données des individus que l’on peut regrouper ensemble et de découper le jeu de données en un nombre fini de clusters. Cette approche est particulièrement utile lorsque l’on ne dispose pas de catégories a priori. Le clustering peut servir à regrouper ensemble des étudiants, ou des actions qu’ils réalisent. Les algorithmes de clustering peuvent n’avoir aucune hypothèse quant aux clusters dans les données (comme c’est le cas des k-means), ou partir d’une hypothèse pré-existante, issue par exemple d’une recherche antérieure. C’est la logique qui sous-tend notamment les algorithmes de Maximisation des attentes. Selon certaines approches, tous les points doivent être rangés dans une catégorie et une seule (c’est le cas du k-means), tandis que dans d’autres (comme les modèles gaussiens mixtes), un même point peut appartenir à plusieurs clusters, ou à aucun des clusters créés.

L’analyse factorielle est utilisée pour réduire la dimensionnalité d’un jeu de données (i.e. le nombre de variables). Dans le champ de l’analyse des réseaux sociaux, ce sont les interactions entre individus qui constituent le centre de l’attention du chercheur. On peut chercher à identifier des patterns qui émergent de ces relations, et comment ces patterns peuvent varier d’un groupe d’individus à l’autre. Enfin, l’analyse de structure de domaine consiste à construire un modèle de domaine dans un champ disciplinaire donné. Il s’agit de cartographier les composantes de savoir spécifiques, afin de préparer le terrain à la construction d’outils permettant de faire le lien entre performances et connaissances des étudiants. L’établissement de Q-matrices, qui permettent d’établir un lien entre items d’un test et les compétences correspondantes. Les systèmes tuteurs intelligents reposent dans une large mesure sur ces différentes démarches.

C’est dans le domaine des MOOC que nous trouverons un exemple qui illustre le cas de figure du clustering. Kizilcec et al. (2013) proposent une catégorisation des non-certifiés sur la base des actions qu’ils réalisent au sein du cours, catégorisation centrée sur la question de l’assiduité des participants vis-à-vis du rendu de devoirs ou de la visualisation de vidéos. Sur la base des traces d’interaction de trois MOOC organisés sur Coursera, Kizilcec et al. (2013) se basent sur un algorithme de type K-means pour distinguer trois catégories-types de non-certifiés.

⦁ Se désengagent : L’activité des participants décroît au fil des semaines jusqu’à s’arrêter définitivement.
⦁ Se concentrent sur certaines portions du cours : l’utilisateur se concentre sur un échantillon de ressources ou d’activités, sans que son activité chute nécessairement au fil du temps.
⦁ Suivent le cours en auditeur libre : le participant se contente de visionner des vidéos, mais reste actif jusqu’au terme du cours.

L’auteur applique cette démarche au sein de trois MOOC organisés sur la plate-forme américaine Coursera, et mettra en évidence une certaine variabilité des différentes classes de participants d’un cours à l’autre.

Cet article était assez bref, mais je pense qu’il est suffisant pour donner un aperçu de ces deux méthodes. Dans le billet à venir, nous parlerons de Relationship Mining.

PS : La bibliographie associée à cet article est disponible dans ce billet.

Licence : Pas de licence spécifique (droits par défaut)

Répondre à cet article

Suivre les commentaires : |

Modélisation prédictive et découverte de structure, deux classiques de la recherche en Educational Data Mining

Répondre à cet article

Dans la même rubrique