ChatGPT et test de Turing inversé

23 mai 2023 par binaire IA, Chat GPT et formation 391 visites 0 commentaire

Un article repris de https://www.lemonde.fr/blog/binaire...

Erwan Le Merrer, chercheur Inria, étudie le fonctionnement des plateformes du Web et analyse leurs comportements. Il préside le conseil scientifique de la Société informatique de France. Il nous propose une réflexion sur un sujet qui fait énormément parler aujourd’hui, ChatGPT et les modèles génératifs. Turing a proposé un test pour savoir si un humains pouvait distinguer des réponses émanant d’une intelligence artificielle de celles produites par d’autres humains. Erwan montre que dans une inversion étonnante, le test est aujourd’hui posé aux intelligences artificielles. Pierre Paradinas

ChatGPT et les autres modèles génératifs sont amenés à modifier profondément nos usages. La génération instantanée de textes, d’images et de vidéos, inspire déjà quantité d’applications. Au delà de l’objectif affiché, la nature des sources de données sur lesquelles ChatGPT va poursuivre sa construction est critique.

Le test de Turing est une expérience proposée en 1950 par Alan Turing et consistant pour un expérimentateur à deviner si la réponse à une question émane d’un être humain ou d’un ordinateur. L’expérimentateur est à l’aveugle par rapport au questionné, la vision de ce dernier étant occultée par un mur. La finalité du test est de questionner la distinguabilité de l’être humain des processus numériques en cours d’élaboration à l’époque. L’application aujourd’hui dans d’autres contextes est par exemple : étant donnée une copie de devoir à corriger pour un enseignant, a-t-elle été rédigée par l’étudiant ou par ChatGPT ?

Les textes et données présents sur le web sont (encore) en grande partie le fait d’humains : journalistes, blogueurs, scientifiques, passionnés ou utilisateurs de réseaux sociaux. ChatGPT s’en nourrit pour construire le modèle probabiliste qui le dirige. Sans ces données, pas d’apprentissage et donc de génération satisfaisante. Mais voila, des textes ainsi générés sont déjà utilisés plus ou moins directement (peut-être sans modification) pour alimenter les sites web, et autres contenus de documents partagés [1].

Il résulte la possibilité d’un cercle vicieux : ChatGPT devra être mis à jour fréquemment pour s’adapter aux événements ou nouvelles connaissances ; les nouveaux contenus aspirés pour être ingurgités seront ils alors des contenus déjà générés par ce même ChatGPT ? Ce serait problématique à plus d’un sens. On peut ici faire le parallèle avec des techniques relativement similaires dites de génération adversarielles (GANs), ou deux modèles d’apprentissage machine se font face. L’un pour améliorer sa génération de données essaie de tromper le second, qui lui essaie de discriminer ces données reçues d’autres données émanant cette fois d’êtres humains. L’intuition est simple : si le premier modèle génère par exemple des images trop facilement discriminables d’autres images réelles, alors il ne fait pas bien son travail. Il s’améliore alors jusqu’à ce que cette génération ne permette plus au second modèle de juger correctement du fait que ces images sont générées, avec plus d’une chance sur deux. Le premier modèle a alors “convergé” et atteint son objectif de génération indistinguable de données.

Nous revoilà devant cette question d’indistinguabilité, cette fois concernant les données d’apprentissage de ChatGPT : les données glanées sur le web sont-elles le fait d’humains, de ChatGPT, ou d’autres modèles génératifs ? Mais l’expérimentateur du test de Turing est cette fois un processus numérique — ChatGPT lui même — plutôt qu’une personne : à ChatGPT d’arriver à distinguer sa propre création, ou des variantes manipulées par des personnes, dans cette instance inversée du test de Turing.

Et on peut douter du succès de ChatGPT sur ce test, même à court terme. Ce dernier est bien précisément entrainé pour produire des sorties indistinguables de textes produits par des humains. Des chercheurs proposent de forcer ces modèles génératifs à embarquer des traces qui les confondent dans chacun de leurs textes générés (techniques dites de “tatouage” [2]). D’autres proposent au contraire une attaque pour contrer le tatouage qui paraphrase le texte généré pour ainsi permettre de rendre inopérant ce tatouage [3]. Ils fournissent au contraire une preuve d’impossibilité (i.e., d’indistinguabilité), qui s’appuie sur la nécessaire convergence de la distribution des mots dans les phrases générées vers celle naturellement présente dans les textes humains [3], au fur et à mesure de l’amélioration des capacités de ChatGPT ou de ses compétiteurs. Le problème est évidemment le même pour un système concurrent (e.g., Bard de Google) qui consommerait du ChatGPT, et inversement.

Il est ici central de rappeler que l’indistinguabilité statistique de la formation de phrases n’a rien à voir avec l’indistinguabilité de la véracité ou non de ce que disent ces mêmes phrases : elles peuvent être syntaxiquement parfaites et sembler cohérentes, mais contenir des erreurs factuelles. Or ChatGPT est entraîné pour répondre parfaitement à ce premier objectif, mais pas au second. Lorsque le web sera alors peuplé de données non distinguables, le problème technique sera d’imaginer ce qu’il adviendra de la convergence d’un ré-apprentissage périodique pour ChatGPT, qui n’a aucun intérêt pratique à ingurgiter ses propres sorties. Un regain du nombre d’erreurs factuelles peut alors survenir dans ces textes générés, pour être ensuite intégrés sur le web de façon consciente ou non. Et ce dans une itération continue de la forme “génération, insertion sur le web, ingestion, ré-apprentissage”, etc.

Les conséquences sociétales à craindre sont probablement une dilution encore plus grande de la capacité d’attribution aux créateurs ou penseurs, et conséquemment un risque de confusionnisme accru par la présence en ligne d’affirmations contraires concernant tous les faits possibles.

Que deviendra le ver quand le fruit sera pourri ?

Erwan Le Merrer, Inria

Références :

[1] https://www.theguardian.com/technology/2023/may/02/chatbot-journalists-found-running-almost-50-ai-generated-content-farms

[2] A Watermark for Large Language Models, Arxiv, 2023.

[3] Can AI-Generated Text be Reliably Detected ?, Arxiv, 2023.

Licence : CC by