Cinq questions que les formatrices et formateurs n’osent pas se poser sur l’évaluation à l’ère de l’IA

14 mars 2026 par Rochane Kherbouche IA, Chat GPT et formation 900 visites 0 commentaire

80 % des professionnelles et professionnels de la formation utilisent l’expression « évaluer le processus » sans pouvoir décrire ce qu’ils regarderaient concrètement dans une copie. Ce vide révèle cinq questions que notre profession évite de formuler clairement.

Bruxelles, février 2024. Je forme des enseignantes de l’École Européenne à l’intégration de l’IA. J’expose la nécessité de « noter le processus plutôt que le résultat ». Une formatrice en langues m’interrompt : « Tu as un exemple concret qui ne me prend pas trois heures de correction par copie ? » Je cherche. Je ne trouve pas. J’ai le concept. Pas le mode d’emploi.
Cette question m’a suivi pendant des mois. En interrogeant des dizaines de praticiennes et praticiens francophones, en confrontant mes certitudes aux données terrain, j’ai compris que ce malaise n’était pas isolé. Il révèle cinq questions que notre profession évite de formuler clairement.

1. Le mantra du processus, vidé de sa substance

« Évaluer le processus » est devenu le mantra des formations à l’IA. J’ai interrogé 48 professionnelles et professionnels de la formation francophone. Résultat : 80 % utilisent cette expression sans pouvoir décrire ce qu’ils ou elles regarderaient concrètement dans une copie. Le mot circule. La pratique reste absente.
La confusion est plus profonde qu’un manque de méthode. Beaucoup pensent que documenter le processus revient à évaluer la maîtrise technique de l’IA, savoir prompter, connaître les outils. Cette lecture passe à côté. Ce qui doit être évalué, c’est le discernement disciplinaire à travers les traces d’interaction. Une étudiante en droit qui rejette une suggestion juridiquement incorrecte de ChatGPT démontre sa compétence juridique, pas sa compétence IA. La nuance paraît subtile. Elle change tout.

2. Le double ancrage, ou qui peut évaluer quoi

Christiane Caneva, de l’Université de Fribourg, a formalisé ce qu’elle nomme le paradoxe du double ancrage [1]. Pour utiliser l’IA de manière critique dans un domaine, il faut simultanément maîtriser ce domaine et posséder une littératie IA solide. Les étudiantes et étudiants ont la littératie sans l’expertise disciplinaire. Les enseignantes et enseignants ont l’expertise sans la littératie. Les deux populations sont mal équipées, mais pour des raisons inverses.
Ce déséquilibre produit des situations concrètes. Des étudiantes et étudiants utilisent l’IA pour accomplir des tâches dans des domaines qu’ils et elles ne maîtrisent pas encore : ils et elles ne peuvent pas évaluer la pertinence des réponses obtenues. Des enseignantes et enseignants tentent de détecter des usages qu’ils et elles ne comprennent pas techniquement : ils et elles se fient à des indices de surface qui ne prouvent rien. Qui évalue qui, dans ces conditions ?

3. L’illusion de la détection

Les données sur la détection humaine sont moins rassurantes qu’on ne le croit. Une étude récente montre que des expertes et experts, spécialistes du contenu ou de l’analyse textuelle, identifient correctement les textes générés par IA dans 70 % des cas [2]. Près d’un tiers des productions assistées passent donc inaperçues, et la familiarité avec le sujet n’améliore pas le score.
L’explication tient aux biais cognitifs mobilisés. Les évaluatrices et évaluateurs se fient au vocabulaire soutenu, à l’absence de fautes, à la structuration argumentative. Ce sont précisément les dimensions que l’IA maîtrise le mieux. Les incohérences conceptuelles subtiles, les raisonnements circulaires, les références factuelles erronées, tout ce qui trahit une production algorithmique échappe à la lecture rapide. L’expertise pédagogique ne suffit pas. Elle peut même induire une fausse confiance.

4. La fiction collective de l’évaluation isolée

Si les compétences professionnelles réelles incluent désormais la capacité à mobiliser des assistants IA pour accélérer certaines tâches, pourquoi continuer à évaluer ces mêmes tâches dans des conditions artificielles d’isolement ? L’enquête HEPI 2025 documente un usage massif : 88 % des étudiantes et étudiants britanniques utilisent l’IA générative pour leurs travaux académiques [3]. La plupart le font sans en informer leurs enseignantes et enseignants.
Le décalage entre les pratiques réelles et les conditions d’évaluation crée une fiction collective. On interdit en examen ce qu’on encouragera au travail. On évalue des compétences que personne n’exercera plus sans assistance algorithmique. L’alignement pédagogique, cette cohérence entre objectifs, activités et évaluation, est rompu.

5. La complexité apparente, dernier refuge neutralisé

L’évaluation authentique, telle que définie par Wiggins dans les années 1990, reposait sur la complexité des tâches : mobiliser plusieurs compétences, articuler des savoirs hétérogènes, produire dans des contextes réalistes. Ce critère ne tient plus de la même façon. L’IA combine des informations issues de domaines différents, articule des concepts, produit des structures argumentatives sophistiquées. Elle le fait sans comprendre.
Ce qui résiste encore, c’est autre chose. L’arbitrage entre des critères contradictoires. La prise en compte d’éléments tacites acquis par l’expérience. Le choix entre des approches méthodologiques qui s’affrontent. L’IA propose des connexions plausibles en surface. Seule l’expertise disciplinaire filtre celles qui tiennent en profondeur. Ce n’est plus la complexité de la tâche qui distingue l’humaine ou l’humain de la machine. C’est la qualité d’un jugement face à un choix que personne n’a encore tranché.

Ces cinq questions ne sont pas des problèmes à régler par des ajustements techniques. Elles signalent une inadéquation entre les formes héritées de l’évaluation et les exigences d’une formation confrontée à la transformation numérique du travail. Les réponses existent. Elles supposent de reformuler les questions.

Ces réflexions sont tirées d’un manuscrit en préparation dont la sortie est prévue pour Mai 2026.

Licence : CC by-sa

Portfolio

Notes

[1] Caneva, C. (2025). Évaluer à l’ère de l’IA : le paradoxe du double ancrage. Médiations et médiatisations, 22. https://doi.org/10.52358/mm.vi22.495

[2] Doru, B. et al. (2025). Detecting Artificial Intelligence-Generated Versus Human-Written Medical Student Essays. JMIR Medical Education, 11, e62779. https://doi.org/10.2196/62779

[3] HEPI (2025). Students and Generative AI : New Evidence on Usage, Attitudes and Concerns.

Répondre à cet article

Suivre les commentaires : |