Traces d’interaction et types d’analyses de données quantitatives

12 janvier 2017 par Matthieu Cisel Veille 690 visites 0 commentaire

Un article repris de https://numpedago.hypotheses.org/79

J’inaugure aujourd’hui une série d’articles au cours desquels je me propose de revenir sur la diversité des types d’analyses quantitatives menées sur les traces d’interaction, en nous inscrivant dans la démarche de classification que nous avons suivie pour les méthodes mixtes. Nous emploierons le terme forme d’analyse pour désigner les différents types d’analyses quantitatives étudiées ici. Il est possible de classifier les formes d’analyse selon plusieurs axes, le premier étant celui de l’objectif sous-jacent, le second étant la nature de l’analyse réalisée. Les travaux réalisés dans le champ de l’Educational Data Mining peuvent avoir plusieurs objectifs non mutuellement exclusifs : communication aux parties prenantes, amélioration des cours, génération de recommandations, prédiction des résultats et des acquis futurs des étudiants, construction de « modèles étudiants », etc. Nous avons choisi ici de nous concentrer sur la nature des analyses réalisées.

Les ouvrages consacrés à la fouille de données offrant des typologies d’analyses (Moore, 2006) sont légion, aussi ne chercherons-nous pas ici à en réaliser un recensement exhaustif. Les travaux consacrés spécifiquement à la fouille de données éducatives (Romero & Ventura, 2007 ; Peña-Ayala, 2013) sont en revanche plus rares. Ils permettent d’une part d’illustrer avec des exemples issus du monde éducatif la diversité des types d’analyse, et d’autre part de mettre au jour certaines des spécificités du champ. Nous nous proposons de revenir sur certaines des typologies d’analyses proposées dans le cadre de ces différents ouvrages, typologies que nous chercherons à illustrer tantôt par de la littérature spécialisée sur les MOOC, tantôt par des cas d’étude de Hubble. Les pages qui suivent s’inspirent très largement de Baker & Yacef (2009) et de Romero & Ventura (2007). Nous conserverons les termes anglo-saxons lorsque nous ne serons pas en mesure de trouver une traduction satisfaisante, ou lorsque les termes se sont imposés au sein des communautés francophones.

Comme le soulignent Baker & Yacef (2009), les méthodes utilisées en EDM sont issues de littératures variées, incluant la fouille de données et le machine learning, la psychométrie, et divers domaines des statistiques, la visualisation de l’information ou la modélisation. Les auteurs proposent la classification qui suit, que l’on retrouvera dans d’autres ouvrages de référence du domaine (Peña-Ayala, 2013), et dans certaines rencontres organisées en France au sein de la communauté EIAH (Lebis, 2016) :

⦁ Prediction
⦁ Clustering
⦁ Relationship mining
⦁ Association rule mining
⦁ Correlation mining
⦁ Sequential pattern mining
⦁ Causal data mining
⦁ Distillation of data for human judgment
⦁ Discovery with models

Les trois premières catégories de la taxonomie de Baker coïncident largement avec les taxonomies de formes d’analyses proposées par Moore (2006). Historiquement, les méthodes de Relationship mining ont dominé le champ de l’EDM. Notons par ailleurs que dans la suite du document, nous remplacerons le terme Clustering par le terme plus générique de Structure Discovery, qui englobe d’autres formes d’analyses. La quatrième, ne correspond pas de manière universelle à de la fouille de donnée, mais a une place prépondérante dans les travaux réalisées en EDM et dans les discussions théoriques du champ. Nous rentrerons au cours des billets à venir dans le détail de chacune de ces catégories.

PS : La bibliographie associée à cet article est disponible dans ce billet.

Licence : Pas de licence spécifique (droits par défaut)

Répondre à cet article

Suivre les commentaires : |

Traces d’interaction et types d’analyses de données quantitatives

Répondre à cet article

Dans la même rubrique