Stratégies d’analyse et fouille de données éducatives : le Relationship Mining

16 janvier 2017 par Matthieu Cisel Veille 1219 visites 0 commentaire

Un article repris de https://numpedago.hypotheses.org/82

Dans le cas du Relationship mining, l’objectif est de découvrir des relations entre variables dans un jeu de données qui en comprend un nombre important. Cela peut conduire à chercher à identifier les variables qui sont le plus fortement associées avec une variable d’intérêt, ou à établir parmi l’ensemble de paires de variables celles dont la relation est la plus forte. Il existe grossièrement quatre types de Relationship mining : l’association rule mining, le correlation mining, le sequential pattern mining, le causal data mining. Cet article s’inscrit dans une série de billets consacrés aux techniques d’analyse en Educational Data Mining (fouille de données éducatives). La lecture des articles précédents est nécessaire pour mieux comprendre la démarche.

⦁ Association Rule Mining

Dans le cas de la recherche des règles d’association (Association Rule Mining pour les anglo-saxons), l’objectif est d’identifier des relations si-donc où, si une variable d’intérêt prend un ensemble de valeurs données, telle autre variable prendra généralement une valeur spécifique.

⦁ Correlation Mining

Dans le cas du correlation mining, l’objectif est de trouver des corrélations linéaires, positives ou négatives, entre variables, brutes ou construites. Les corrélations issues de la fouille de données doivent satisfaire au moins deux critères : la signification statistique d’une part, et l’intérêt d’autre part. Au-delà des tests standards, on utilisera des ajustements, comme l’ajustement de Bonferroni, pour prendre en compte le fait que le nombre de paires de variables peut être très élevé, et qu’il faut donc d’autant plus probable de trouver des relations statistiquement significatives. Le critère de l’intérêt d’une relation permet de réduire le nombre de relations possibles communiqué à l’analyste. Le nombre de relations qu’il est possible de trouver dans un jeu de donné est très important ; certaines relations sont redondantes, tandis que d’autres n’ont aucun intérêt pour la recherche.

⦁ Sequential Pattern Mining

Dans le cas de la recherche de séquences (sequential pattern mining), l’objectif est d’identifier des associations temporelles entre événements. Par exemple, il peut s’agir de déterminer quelle suite d’actions conduit de manière plus fréquente à un événement d’intérêt pour l’apprentissage, ou créer des clusters de séquence particulier. On rejoint alors les préoccupations respectives de la modélisation prédictive ou du clustering.

Concluons cette réflexion sur le Relationship Mining sur la question du Causal Data Mining, où il est maintenant question de causalité, et non plus seulement de corrélation.

⦁ Causal Data Mining

Dans le cas du causal data mining, l’objectif est de déterminer si un événement en particulier (ou un construit) constitue la cause d’un autre événement. Notamment, lors d’une expérimentation pédagogique incluant un plan expérimental randomisé, si un traitement particulier améliore les performances d’un étudiant, on pourra inférer des relations de cause à effet. Dans les MOOC, la popularité des approches expérimentales découle en grande partie de la diffusion de la fonctionnalité dite d’A/B testing, permettant de faire coexister pour différents segments de l’audience du cours des versions sensiblement différentes du dispositif.

Kizilcec et al. (2014) utilisent cette approche dans le domaine des MOOC notamment pour mesurer l’impact de la nature des relances envoyées par courriel aux inscrits sur la probabilité de se reconnecter au cours. Ils utilisent trois types de relances aux contenus différents et mesurent en fonction la proportion des participants qui se reconnectent au cours, notamment pour interagir dans les forums de discussion. D’autres types de paramètres ont été testés de manière expérimentale afin de mesurer leur influence sur le comportement des participants, comme l’influence de l’investissement de l’équipe pédagogique dans les forums de discussion du cours sur la participation au cours (Tomkin & Charlevoix, 2014).

Ces différents exemples concluent le paragraphe sur le Causal Data Mining, et de manière générale, ce long billet sur le Relationship Mining. Nous nous proposons d’aborder dans le billet à venir la question de la « présentation des données pour le jugement humain ».

PS : La bibliographie associée à cet article est disponible dans ce billet.

Licence : Pas de licence spécifique (droits par défaut)

Répondre à cet article

Suivre les commentaires : |

Stratégies d’analyse et fouille de données éducatives : le Relationship Mining

Répondre à cet article

Dans la même rubrique