<?xml
version="1.0" encoding="utf-8"?>
<rss version="2.0" 
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:atom="http://www.w3.org/2005/Atom"
>

<channel xml:lang="fr">
	<title>Innovation P&#233;dagogique et transition</title>
	<link>https://www.innovation-pedagogique.fr/</link>
	<description>Un site participatif, lieu de partage et d'&#233;change autour des initiatives en transitions et des innovations p&#233;dagogiques dans l'enseignement sup&#233;rieur francophone.</description>
	<language>fr</language>
	<generator>SPIP - www.spip.net</generator>
	<atom:link href="https://www.innovation-pedagogique.fr/spip.php?id_auteur=11521&amp;page=backend" rel="self" type="application/rss+xml" />

	<image>
		<title>Innovation P&#233;dagogique et transition</title>
		<url>https://www.innovation-pedagogique.fr/local/cache-vignettes/L64xH64/siteon0-b9b71.png?1691667292</url>
		<link>https://www.innovation-pedagogique.fr/</link>
		<height>64</height>
		<width>64</width>
	</image>



<item xml:lang="fr">
		<title>ChatGPT : comment &#231;a marche ?</title>
		<link>https://www.innovation-pedagogique.fr/article14078.html</link>
		<guid isPermaLink="true">https://www.innovation-pedagogique.fr/article14078.html</guid>
		<dc:date>2023-02-09T16:10:26Z</dc:date>
		<dc:format>text/html</dc:format>
		<dc:language>fr</dc:language>
		<dc:creator>Pierre-Carl Langlais</dc:creator>



		<description>
&lt;p&gt;Un article de Pierre-Carl Langlais repris du site Sciences communes, une publication sous licence CC 0 &lt;br class='autobr' /&gt;
Tout-le-monde en parle : chatGPT r&#233;volutionne l'enseignement, la programmation, la propagande, le marketing, la politique&#8230; Et pourtant, qui est chatGPT ? &lt;br class='autobr' /&gt;
Tout d'abord deux mod&#232;les diff&#233;rents, souvent confondus. &lt;br class='autobr' /&gt;
GPT c'est Generative Pre-trained Transformer 3, un mod&#232;le g&#233;ant de pr&#233;diction de texte entra&#238;n&#233; par OpenAI sur 500 milliards de mots. GPT-3 est non seulement capable d'&#233;crire (&#8230;)&lt;/p&gt;


-
&lt;a href="https://www.innovation-pedagogique.fr/rubrique70.html" rel="directory"&gt;IA, Chat GPT et formation&lt;/a&gt;


		</description>


 <content:encoded>&lt;div class='rss_texte'&gt;&lt;p&gt;&lt;i&gt;Un &lt;a href=&#034;https://scoms.hypotheses.org/1059&#034; class=&#034;spip_out&#034; rel=&#034;external&#034;&gt;article&lt;/a&gt; de Pierre-Carl Langlais repris du site &lt;a href=&#034;https://scoms.hypotheses.org/&#034; class=&#034;spip_out&#034; rel=&#034;external&#034;&gt;Sciences communes&lt;/a&gt;, une publication sous licence CC 0&lt;/i&gt;&lt;/p&gt;
&lt;p&gt;Tout-le-monde en parle : chatGPT r&#233;volutionne l'enseignement, la programmation, la propagande, le marketing, la politique&#8230; Et pourtant, qui est chatGPT ?&lt;/p&gt;
&lt;p&gt;Tout d'abord deux mod&#232;les diff&#233;rents, souvent confondus.&lt;/p&gt;
&lt;p&gt;GPT c'est &lt;em&gt;Generative Pre-trained Transformer 3&lt;/em&gt;, un &lt;strong&gt;mod&#232;le g&#233;ant de pr&#233;diction de texte&lt;/strong&gt; entra&#238;n&#233; par OpenAI sur 500 milliards de mots. GPT-3 est non seulement capable d'&#233;crire correctement dans plusieurs langues mais c'est aussi un &lt;strong&gt;mod&#232;le encyclop&#233;dique &lt;/strong&gt;qui int&#232;gre un grand nombre de r&#233;f&#233;rences au monde r&#233;el (personnes, &#233;v&#233;nements, connaissances scientifiques) qu'il restitue plus ou moins bien. GPT-3 existe d&#233;j&#224; depuis environ deux ans mais n'a jamais &#233;t&#233; ouvert au grand public. Et cela pour des raisons de co&#251;t mais aussi, surtout de risques : GPT-3 n'a pas vraiment d'inhibition et peut g&#233;n&#233;rer n'importe quoi tant que le texte et superficiellement coh&#233;rent.&lt;/p&gt;
&lt;p&gt;ChatGPT est aussi bas&#233; sur InstructGPT, un &lt;strong&gt;mod&#232;le conversationnel&lt;/strong&gt; &#8220;d'apprentissage renforc&#233; par retours humains&#8221; (&lt;em&gt;Reinforcement Learning from Human Feedback&lt;/em&gt; ou &lt;em&gt;RLHF&lt;/em&gt;). Il s'agit d'une version &#8220;redress&#233;e&#8221; de GPT-3 cr&#233;&#233; &#224; partir de l'annotation de textes g&#233;n&#233;r&#233;s. Le mod&#232;le incorpore toute une s&#233;rie de r&#233;compenses (&#8220;rewards&#8221;) et de p&#233;nalit&#233;s qui jouent plusieurs fonctions : renforcer la coh&#233;rence du texte g&#233;n&#233;r&#233;, &#233;viter les contre-v&#233;rit&#233;s flagrantes, mais aussi mod&#233;rer par anticipation de potentielles d&#233;rives toxiques. Parmi tout l'univers des r&#233;ponses linguistiquement correctes que GPT-3 pourrait g&#233;n&#233;rer, chatGPT opte pour celles qui sont le plus correctes dans le contexte d'un chat : c'est ce qu'on appelle l'alignement (&#8220;AI alignment&#8221;). Sur la base de ce m&#234;me principe, chatGPT refuse aussi parfois carr&#233;ment de r&#233;pondre.&lt;/p&gt;
&lt;p&gt;&lt;img loading=&#034;lazy&#034; width='500' height='292' class='wp-image-1071' src='https://www.innovation-pedagogique.fr/local/cache-vignettes/L500xH292/Capture-decr2122-2d63e7b7-dc7f0.png?1706887929' alt=&#034;Sch&#233;ma du &#034;mod&#232;le conversationnel&#034; (RHLF) de chatGPT&#034; srcset=&#034;local/cache-vignettes/L500xH292/Capture-decr2122-144c7.png?1675862006 2006w, https://scoms.hypotheses.org/files/2023/02/Capture-de&#769;cran-2023-02-06-a&#768;-10.37.41-300x175.png 300w, https://scoms.hypotheses.org/files/2023/02/Capture-de&#769;cran-2023-02-06-a&#768;-10.37.41-1024x597.png 1024w, https://scoms.hypotheses.org/files/2023/02/Capture-de&#769;cran-2023-02-06-a&#768;-10.37.41-768x448.png 768w, https://scoms.hypotheses.org/files/2023/02/Capture-de&#769;cran-2023-02-06-a&#768;-10.37.41-1536x896.png 1536w&#034; sizes=&#034;(max-width: 2006px) 100vw, 2006px&#034; /&gt;&lt;/p&gt;
&lt;p&gt;L'articulation des deux mod&#232;les n'est pas tr&#232;s claire. Ils semblent avoir &#233;t&#233; d&#233;j&#224; fusionn&#233;s dans la nouvelle version de GPT-3 utilis&#233; par chatGPT, GPT 3.5 (aussi appel&#233; text-davinci-003). Mais chatGPT utilise en plus un (ou plusieurs ?) mod&#232;les conversationnels plus l&#233;gers en amont et en aval. S'y ajoute enfin des filtres de mod&#233;ration ind&#233;pendants qui emp&#234;chent par exemple de poser des questions inconvenantes.&lt;/p&gt;
&lt;p&gt;N&#233;anmoins la distinction entre mod&#232;le textuel et mod&#232;le conversationnel est fondamentale pour comprendre comment fonctionne chatGPT :&lt;/p&gt;
&lt;ul&gt;&lt;li&gt;Le &lt;strong&gt;mod&#232;le linguistique&lt;/strong&gt; &lt;strong&gt;n'est pas actualis&#233;&lt;/strong&gt; et ne se nourrit pas des suggestions des utilisateurs. L'entra&#238;nement des mod&#232;les GPT est tr&#232;s co&#251;teux et ne sera renouvel&#233; qu'une fois par an environ (donc pour maintenant, on attend GPT-4). C'est la raison pour laquelle chatGPT ne ferait pas de r&#233;f&#233;rences au monde actuel apr&#232;s 2021&lt;sup&gt;&lt;a href=&#034;https://scoms.hypotheses.org/1059#footnote_0_1059&#034; id=&#034;identifier_0_1059&#034; class=&#034;footnote-link footnote-identifier-link&#034; title=&#034;Enfin, je pense que des documents de l'ann&#233;e 2022 sont pr&#233;sents dans GPT-3.5, comme le mod&#232;le n'a &#233;t&#233; publi&#233; qu'en novembre 2022, mais cela reste parcellaire et il est plus commode pour OpenAI de communiquer sur une coupure nette apr&#232;s 2021&#034;&gt;1&lt;/a&gt;&lt;/sup&gt;&lt;/li&gt;&lt;li&gt;Le &lt;strong&gt;mod&#232;le conversationnel&lt;/strong&gt; continue de s'affiner en fonction du retour des utilisateurs : toutes les 3-4 semaines en moyenne, OpenAI am&#233;liore l'alignement du mod&#232;le avec les intentions des utilisateurs ou de la plateforme. Si le mod&#232;le textuel ne change pas, le mod&#232;le conversationnel opte pour des g&#233;n&#233;rations de meilleures qualit&#233;s et, inversement, p&#233;nalise davantage les g&#233;n&#233;rations malvenues. La derni&#232;re version en date du 30 janvier, am&#233;liore ainsi la &#8220;factualit&#233;&#8221; de chatGPT ou, plus prosa&#239;quement, p&#233;nalise davantage les &#8220;hallucinations&#8221; (c'est le terme consacr&#233; pour d&#233;signer les g&#233;n&#233;rations purement imaginaires). Le mod&#232;le conversationnel semble aussi disposer de sa propre &#8220;m&#233;moire&#8221; ce qui lui permet de tenir des conversations plus longues que le mod&#232;le linguistique.&lt;/li&gt;&lt;/ul&gt;
&lt;p&gt;Au-del&#224; des deux mod&#232;les, chatGPT est un amoncellement de strates, de morceaux de codes et de concepts qui marque l'aboutissement de 70 ans de recherches en linguistique, en informatique. Au fond, le meilleur moyen de comprendre chatGPT c'est encore d'en retracer l'histoire. Essayons de d&#233;nouer un peu tout &#231;a.&lt;/p&gt;
&lt;h2&gt;1. Le principe fondateur : la statistique s&#233;mantique&lt;/h2&gt;
&lt;p&gt;En janvier 1954, l'ordinateur IBM de l'universit&#233; Georgetown &lt;a href=&#034;https://en.wikipedia.org/wiki/Georgetown%E2%80%93IBM_experiment&#034;&gt;tourne &#224; plein r&#233;gime&lt;/a&gt;. Chercheurs, journalistes et responsables politiques assistent &#224; la premi&#232;re d&#233;monstration publique d'un traducteur automatique : en quelques instants, le programme parvient &#224; traduire parfaite quelques phrases de russe en anglais. En r&#233;alit&#233;, la d&#233;monstration est truqu&#233;e. Le programme ne conna&#238;t qu'un vocabulaire r&#233;duit de 250 mots en russe et en anglais et, surtout, seulement quelques r&#232;gles de grammaire. Les phrases ont &#233;t&#233; commod&#233;ment choisies en amont pour &#234;tre correctement restitu&#233;es.&lt;/p&gt;
&lt;figure class=&#034;wp-block-image size-large&#034;&gt;&lt;a href=&#034;https://scoms.hypotheses.org/files/2023/02/Capture-de&#769;cran-2023-02-05-a&#768;-20.57.46-1.png&#034;&gt;&lt;img loading=&#034;lazy&#034; width='500' height='227' src='https://www.innovation-pedagogique.fr/local/cache-vignettes/L500xH227/Capture-decr2c0c-5a83e358-f4456.png?1706887929' alt=&#034;&#034; class='wp-image-1130' srcset=&#034;local/cache-vignettes/L500xH227/Capture-decr2c0c-318ac.png?1675862006 1024w, https://scoms.hypotheses.org/files/2023/02/Capture-de&#769;cran-2023-02-05-a&#768;-20.57.46-1-300x136.png 300w, https://scoms.hypotheses.org/files/2023/02/Capture-de&#769;cran-2023-02-05-a&#768;-20.57.46-1-768x348.png 768w, https://scoms.hypotheses.org/files/2023/02/Capture-de&#769;cran-2023-02-05-a&#768;-20.57.46-1-1536x696.png 1536w, https://scoms.hypotheses.org/files/2023/02/Capture-de&#769;cran-2023-02-05-a&#768;-20.57.46-1.png 1646w&#034; sizes=&#034;(max-width: 1024px) 100vw, 1024px&#034; /&gt;&lt;/a&gt;&lt;figcaption&gt;L'une des fiches cr&#233;&#233;s pour l'exp&#233;rience de traduction automatique de Georgetown en 1954. La phrase en russe repr&#233;sente l'input initial.&lt;/figcaption&gt;&lt;/figure&gt;
&lt;p&gt;Malgr&#233; ce truc, l'exp&#233;rience suscite de grandes esp&#233;rances. Les premiers ordinateurs sont tout aur&#233;ol&#233;s du d&#233;chiffrement d'Enigma. Et si au fond, les langues n'&#233;taient que des codes comme les autres ? L'allemand ou le russe n'est-il que de l'anglais crypt&#233; ?&lt;/p&gt;
&lt;p&gt;Les sp&#233;cialistes de l'informatique sont sceptiques. En 1947 le math&#233;maticien Warren Weaver &#233;crit au p&#232;re fondateur de la cybern&#233;tique, Norbert Wiener. Il envisage de cr&#233;er un programme de traduction automatique universel pour assurer la &#8220;paix dans le monde&#8221; (&#233;ventuellement avec le soutien financier l'UNESCO). Cet &#233;changes est publi&#233; en 1949 par Weaver dans un court &#8220;&lt;a href=&#034;https://aclanthology.org/1952.earlymt-1.1.pdf&#034;&gt;M&#233;morandum&lt;/a&gt;&#8220;. Malgr&#233; sa nature un peu d&#233;cousue, ce texte pose les bases d'une th&#233;orie fondamentale qui est directement &#224; l'origine de chatGPT : la statistique s&#233;mantique.&lt;/p&gt;
&lt;p&gt;Norbert Wiener constate que les solutions &#8220;na&#239;ves&#8221; de traduction par ordinateur ne sont pas g&#233;n&#233;ralisables. Les mots ont trop de sens diff&#233;rents : &#8220;Je redoute franchement que les fronti&#232;res entre les mots de diff&#233;rentes langues sont trop vagues et les connotations &#233;motionnelles sont trop &#233;tendues pour r&#233;aliser un quelconque projet de &#8220;m&#233;canisation&#8221; de la langue&#8221;. Weaver &#233;met alors l'hypoth&#232;se que l'ordinateur ne devrait pas seulement traiter les mots d'une mani&#232;re isol&#233;es. Il faudrait tenir compte du contexte ou m&#234;me d&#233;j&#224; du &#8220;micro-contexte&#8221;, celui des voisins imm&#233;diats du mot dans la phrase :&lt;/p&gt;
&lt;blockquote class=&#034;wp-block-quote&#034;&gt;
&lt;p&gt;Si nous lisons un mot dans un livre en isolation &#224; travers un masque opaque (&#8230;) il est impossible de d&#233;terminer sa signification (&#8230;) Si maintenant, nous &#233;largissons le masque d'opaque, de telle mani&#232;re que nous ne voyons pas seulement le mot, mais aussi un nombre N de mots de chaque c&#244;t&#233;, si N est suffisamment large, nous pouvons sans ambigu&#239;t&#233; trouver la signification du mot&lt;/p&gt;
&lt;p&gt;&lt;cite&gt;Warren Weaver, &#8220;&lt;a href=&#034;https://aclanthology.org/1952.earlymt-1.1.pdf&#034;&gt;M&#233;morandum&lt;/a&gt;&#8220;, p. 8&lt;/cite&gt;&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p&gt;Ce N correspond &#224; ce qu'on appellerait aujourd'hui une &#8220;&lt;strong&gt;fen&#234;tre contextuelle&lt;/strong&gt;&#8221; (&lt;em&gt;context window&lt;/em&gt;). Au d&#233;but des ann&#233;es 2010, les premiers mod&#232;les courants de texte par r&#233;seaux de neurone utilisaient une fen&#234;tre contextuelle d'une dizaine de mots. Dans GPT 3.5 cette fen&#234;tre a &#233;t&#233; &lt;a href=&#034;https://help.openai.com/en/articles/6787051-does-chatgpt-remember-what-happened-earlier-in-the-conversation&#034;&gt;&#233;largie &#224; environ 3000 mots&lt;/a&gt; (ou 4000 &#8220;tokens&#8221;).&lt;/p&gt;
&lt;p&gt;La fen&#234;tre contextuelle repose sur l'hypoth&#232;se d'une &lt;em&gt;statistique s&#233;mantique &lt;/em&gt;ou &lt;em&gt;&lt;a href=&#034;https://en.wikipedia.org/wiki/Distributional_semantics&#034;&gt;s&#233;mantique distributionnelle&lt;/a&gt;&lt;/em&gt; : le sens proc&#232;de de la position relative des mots les uns avec les autres. Nous en faisons tous l'exp&#233;rience en lisant dans une langue &#233;trang&#232;re ou un texte un peu ancien. Souvent, il n'est pas n&#233;cessaire de consulter un dictionnaire pour saisir une d&#233;finition approximative d'un mot ou d'un usage inusit&#233;. Il y a suffisamment d'indices dans le texte lui-m&#234;me pour comprendre qu'il s'agit par exemple d'un lieu, d'un instrument ou d'une action.&lt;/p&gt;
&lt;h2&gt;2. Un espace de significations : les &#8220;embeddings&#8221;.&lt;/h2&gt;
&lt;p&gt;En 1949, la s&#233;mantique distributionnelle n'est pas une hypoth&#232;se totalement originale. On l'a trouve sous d'autres noms ou d'autres approches chez la plupart des grands th&#233;oriciens linguistiques de la p&#233;riode, dont Roman Jakobson. Seulement pour Weaver ce n'est pas une observation g&#233;n&#233;rale du comportement linguistique, mais un probl&#232;me &#224; r&#233;soudre computationnellement.&lt;/p&gt;
&lt;p&gt;Weaver, comme tous les chercheurs qui se pencheront sur le sujet avec les ann&#233;es 2010, est imm&#233;diatement confront&#233; &#224; un &#233;cueil majeur : m&#234;me en se limitant au vocabulaire le plus basique (par exemple quelques milliers de mots), il existe des milliards et des milliards de combinaisons possibles. Ind&#233;pendamment des limitations techniques des ordinateurs de 1949, recenser toutes ces possibilit&#233;s est un travail absolument inconcevable.&lt;/p&gt;
&lt;p&gt;&#192; partir des ann&#233;es 1980, plusieurs projet de recherche th&#233;orique et appliqu&#233;e ont tent&#233; de simplifier ces r&#233;seaux de co-occurrences massifs &#224; partir de l'analyse matricielle. Les corpus sont transform&#233;s en tableaux g&#233;ants associant un mot &#224; un document (ou un mot &#224; un mot). Puis plusieurs algorithmes peuvent &#234;tre utilis&#233;s pour simplifier ce corpus en r&#233;duisent l'ensemble des occurrences possibles &#224; un nombre pr&#233;d&#233;fini de dimensions (c'est la &#8220;d&#233;composition matricielle&#8221;). La compression d'image est un assez bon analogue pour comprendre ce processus. Une image publi&#233;e un format &#8220;jpeg&#8221; est beaucoup moins volumineuse, simplement parce qu'elle ne conserve pas les pixels d'origine mais une s&#233;rie de param&#232;tres et de poids permettant de recomposer l'image (c'est le &lt;a href=&#034;https://en.wikipedia.org/wiki/Huffman_coding&#034;&gt;coding de Huffman&lt;/a&gt;).&lt;/p&gt;
&lt;p&gt;Cette approche est qualifi&#233;e d'&lt;a href=&#034;https://en.wikipedia.org/wiki/Latent_semantic_analysis&#034;&gt;analyse s&#233;mantique latente&lt;/a&gt; (ou indexation s&#233;mantique latente pour son versant plus appliqu&#233;). Elle est dite &#8220;latente&#8221; en raison de sa capacit&#233; &#224; rapprocher des termes utilis&#233;s similairement m&#234;me lorsqu'ils n'apparaissent jamais ensemble dans le m&#234;me texte. C'est typiquement le cas des synonymes : &#8220;maison&#8221; et &#8220;habitation&#8221; vont rarement figurer dans la m&#234;me phrase mais ont les m&#234;mes voisins et, si elle est concluante, l'analyse s&#233;mantique latente devrait rapprocher les deux termes.&lt;/p&gt;
&lt;p&gt; Aujourd'hui ces dimensions simplifi&#233;es sont qualifi&#233;s d'&#8221;&lt;a href=&#034;https://en.wikipedia.org/wiki/Word_embedding&#034;&gt;embeddings&lt;/a&gt;&#8221; ou plongement de mots. Pour simplifier, on peut consid&#233;rer les embeddings comme des coordonn&#233;es dans un espace s&#233;mantique partag&#233; : plus les mots sont &#8220;proches&#8221; dans cet espace et plus il vont avoir le m&#234;me sens et le m&#234;me principe peut s'appliquer aussi aux documents. Dans ce cadre, &lt;strong&gt;l'analyse du texte devient aussi une analyse spatiale&lt;/strong&gt; : la similarit&#233; se mesure avec des rapports g&#233;om&#233;triques (en particulier, la similarit&#233; &#8220;cosine&#8221;). Ce tournant spatial affecte l'ensemble des corpus trait&#233;s par l'intelligence artificielle. Texte, image, son, vid&#233;o : tout est un embedding aujourd'hui. La g&#233;n&#233;ration d'une image par du texte est fondamentalement une op&#233;ration de conversion des embeddings du texte en embeddings visuels.&lt;/p&gt;
&lt;p&gt;ChatGPT proc&#232;de encore de cette mani&#232;re. Chaque &#8220;mot&#8221; g&#233;n&#233;r&#233; est le r&#233;sultat d'une exploration spatiale qui tient &#224; la fois compte des voisins imm&#233;diats du mot (qui vont notamment d&#233;terminer sa syntaxe), du sens g&#233;n&#233;ral de la conversation (la fen&#234;tre contextuelle de 3000 mots) et de tout le vaste imaginaire des mots possibles dans cette langue.&lt;/p&gt;
&lt;figure class=&#034;wp-block-image size-large&#034;&gt;&lt;a href=&#034;https://scoms.hypotheses.org/files/2023/02/Capture-de&#769;cran-2023-02-06-a&#768;-12.50.06-1.png&#034;&gt;&lt;img loading=&#034;lazy&#034; width='500' height='445' src='https://www.innovation-pedagogique.fr/local/cache-vignettes/L500xH445/Capture-decre685-d20b0348-1b7c2.png?1706887929' alt=&#034;&#034; class='wp-image-1085' srcset=&#034;local/cache-vignettes/L500xH445/Capture-decre685-d1894.png?1675862006 1024w, https://scoms.hypotheses.org/files/2023/02/Capture-de&#769;cran-2023-02-06-a&#768;-12.50.06-1-300x267.png 300w, https://scoms.hypotheses.org/files/2023/02/Capture-de&#769;cran-2023-02-06-a&#768;-12.50.06-1-768x683.png 768w, https://scoms.hypotheses.org/files/2023/02/Capture-de&#769;cran-2023-02-06-a&#768;-12.50.06-1.png 1212w&#034; sizes=&#034;(max-width: 1024px) 100vw, 1024px&#034; /&gt;&lt;/a&gt;&lt;figcaption&gt;Projection d'analyse s&#233;mantique en deux dimensions dans &#8220;Indexing by Latent Semantic Analysis&#8221; (1990, p. 397)&lt;/figcaption&gt;&lt;/figure&gt;
&lt;p&gt;L'analyse s&#233;mantique latente est cependant toujours contrainte par la taille du corpus. S'il est possible de construire un tableau de cooccurrence pour un ensemble de quelques milliers de textes, cela devient rapidement impraticable &#224; grande &#233;chelle. Pour l'ensemble de Wikip&#233;dia anglais (qui jusqu'&#224; r&#233;cemment &#233;tait le corpus de r&#233;f&#233;rence pour l'IA appliqu&#233;e au texte), cela repr&#233;senterait un tableau extr&#234;mement clairsem&#233; de 5 millions de documents d'un c&#244;t&#233; et de plusieurs centaines de milliers de mots de l'autre (m&#234;me si on se limite uniquement aux termes un peu fr&#233;quents), soit environ 500 milliards de donn&#233;es. M&#234;me aujourd'hui seul un superordinateur serait capable de traiter un corpus de taille&#8230;&lt;/p&gt;
&lt;h2&gt;3. Le mod&#232;le : un r&#233;seau de neurone&lt;/h2&gt;
&lt;p&gt;Dans son &lt;em&gt;M&#233;morandum&lt;/em&gt; visionnaire publi&#233; en 1949, Warren Weaver mentionne incidemment la meilleure solution technique pour encoder les milliards de relations contextuelles d'un mot vers un autre : un r&#233;seau de neurone. Malgr&#233; son ascension fulgurante ces derni&#232;res ann&#233;es, le r&#233;seau de neurone est aussi une technologie ancienne, th&#233;oris&#233;e par &lt;a href=&#034;https://www.cs.cmu.edu/~./epxing/Class/10715/reading/McCulloch.and.Pitts.pdf&#034;&gt;McCulloch et Pitts&lt;/a&gt; d&#232;s 1943. Weaver s'int&#233;resse alors particuli&#232;rement &#224; leurs capacit&#233; d'actualisations : les r&#233;seaux de neurones peuvent r&#233;&#233;valuer les donn&#233;es initiales &#224; la lumi&#232;re de nouvelles observations gr&#226;ce &#224; une boucle de r&#233;troaction (&lt;em&gt;feedback loop&lt;/em&gt;). Sur cette base, il pourrait &#234;tre possible de traduire des textes dot&#233;s d'une forte logique interne &#8212; ce qui exclut, pour Weaver, la traduction litt&#233;raire.&lt;/p&gt;
&lt;figure class=&#034;wp-block-image size-full&#034;&gt;&lt;a href=&#034;https://scoms.hypotheses.org/files/2023/02/Capture-de&#769;cran-2023-02-06-a&#768;-20.54.42.png&#034;&gt;&lt;img loading=&#034;lazy&#034; width='500' height='430' src='https://www.innovation-pedagogique.fr/local/cache-vignettes/L500xH430/Capture-decr17dd-23626a17-70353.png?1706887929' alt=&#034;&#034; class='wp-image-1101' srcset=&#034;local/cache-vignettes/L500xH430/Capture-decr17dd-c4229.png?1675862006 1000w, https://scoms.hypotheses.org/files/2023/02/Capture-de&#769;cran-2023-02-06-a&#768;-20.54.42-300x258.png 300w, https://scoms.hypotheses.org/files/2023/02/Capture-de&#769;cran-2023-02-06-a&#768;-20.54.42-768x660.png 768w&#034; sizes=&#034;(max-width: 1000px) 100vw, 1000px&#034; /&gt;&lt;/a&gt;&lt;figcaption&gt;Les r&#233;seaux de neurones de 1943 (McCulloch &amp; Pitts, p. 105)&#8212; d&#233;j&#224; envisag&#233;s par Warren Weaver et Norbert Wiener pour solutionner leurs probl&#232;mes de traduction automatique.&lt;/figcaption&gt;&lt;/figure&gt;
&lt;p&gt;Weaver ne soup&#231;onne pas que &lt;strong&gt;les r&#233;seaux de neurones sont des algorithmes de &#8220;compression&#8221; extr&#234;mement efficaces&lt;/strong&gt;. Ils parviennent aujourd'hui &#224; r&#233;duire des milliards de milliards de relations possibles en un nombre limit&#233; de param&#232;tres et de poids. Le mod&#232;le de g&#233;n&#233;ration d'image Stable Diffusion est un exemple parfait : un corpus initial de 170 millions d'image est transform&#233; en un mod&#232;le de seulement 2 gigaoctets, soit une dizaine d'octets par image. &#201;videmment, les r&#233;seaux de neurones ne peuvent pas recr&#233;er les productions originales en dehors de quelques cas particuliers, mais ils conservent une m&#233;moire des repr&#233;sentations abstraites et des styles, ce qui permet ensuite de g&#233;n&#233;rer un nombre ind&#233;fini d'images nouvelles.&lt;/p&gt;
&lt;p&gt;Du fonctionnement th&#233;orique &#224; l'application pratique il y a un pas &#233;norme. Les r&#233;seaux de neurones sont tr&#232;s co&#251;teux en op&#233;rations computationnelles, en grande partie &#224; cause de leur capacit&#233; d'actualisation. La recherche dans ce domaine reste quasiment &#8220;congel&#233;e&#8221; jusqu'aux ann&#233;es 1990, quand les infrastructures techniques deviennent suffisamment performante pour tester empiriquement des architectures jusqu'ici essentiellement th&#233;oriques.&lt;/p&gt;
&lt;p&gt;En 2013, une &#233;quipe de chercheurs de Google sous la direction de Tomas Mikolov publie une m&#233;thode r&#233;volutionnaire qui va se r&#233;pandre comme une tra&#238;n&#233;e de poudre : &lt;a href=&#034;https://proceedings.neurips.cc/paper/2013/file/9aa42b31882ec039965f3c4923ce901b-Paper.pdf&#034;&gt;word2vec&lt;/a&gt;. word2vec s'appuie sur un r&#233;seau de neurone simple &#224; une seule couche (c'est du &lt;em&gt;shallow learning&lt;/em&gt; par opposition au &lt;em&gt;deep learning&lt;/em&gt; plus commun&#233;ment utilis&#233; aujourd'hui). Concr&#232;tement il n'est pas n&#233;cessaire de stocker en amont un tableau gigantesque de cooccurrence. word2vec d&#233;finit les coordonn&#233;es s&#233;mantiques des mots au fil de l'eau, en &#8220;lisant&#8221; le corpus au fur et en prenant 10-15 termes &#224; la fois (c'est la taille de sa &#8220;fen&#234;tre contextuelle&#8221;). Dans l'un de ses exemples de d&#233;monstration, word2vec utilisait ainsi un corpus de 100 millions de mots extrait de Wikip&#233;dia. L'entra&#238;nement de ce corpus peut &#234;tre fait sur un simple ordinateur personnel.&lt;/p&gt;
&lt;p&gt;Cette innovation technique entra&#238;ne toute une s&#233;rie d'innovations conceptuelles. Mikolov s'est form&#233; en R&#233;publique Tch&#232;que et s'inscrit dans la tradition de l'analyse linguistique structurelle de Roman Jakobson. Il per&#231;oit imm&#233;diatement tout le potentiel de la statistique s&#233;mantique appliqu&#233;e &#224; de tr&#232;s larges corpus. Il est possible non seulement de recouvrer des synonymes mais aussi d'identifier des relations de genre (du f&#233;minin au masculin), d'abstraction, de fonction ou de situation g&#233;ographique, simplement en se baladant dans l'espace s&#233;mantique cr&#233;&#233; par word2vec. L'un des exemples cit&#233; dans l'article originel de Mikolov porte ainsi l'identification des capitales sur la base du nom du pays :&lt;/p&gt;
&lt;figure class=&#034;wp-block-image size-large&#034;&gt;&lt;a href=&#034;https://scoms.hypotheses.org/files/2023/02/Capture-de&#769;cran-2023-02-06-a&#768;-18.03.52.png&#034;&gt;&lt;img loading=&#034;lazy&#034; width='500' height='357' src='https://www.innovation-pedagogique.fr/local/cache-vignettes/L500xH357/Capture-decr7a41-5ecf8aae-cf051.png?1706887929' alt=&#034;&#034; class='wp-image-1090' srcset=&#034;local/cache-vignettes/L500xH357/Capture-decr7a41-609bc.png?1675862006 1024w, https://scoms.hypotheses.org/files/2023/02/Capture-de&#769;cran-2023-02-06-a&#768;-18.03.52-300x214.png 300w, https://scoms.hypotheses.org/files/2023/02/Capture-de&#769;cran-2023-02-06-a&#768;-18.03.52-768x549.png 768w, https://scoms.hypotheses.org/files/2023/02/Capture-de&#769;cran-2023-02-06-a&#768;-18.03.52.png 1162w&#034; sizes=&#034;(max-width: 1024px) 100vw, 1024px&#034; /&gt;&lt;/a&gt;&lt;figcaption&gt;Identification des capitales &#224; partir du nom d'un pays. La relation pays =&gt; capitale, correspond &#224; une distance pr&#233;cise dans l'espace s&#233;mantique des &#8220;word embeddings&#8221;.&lt;/figcaption&gt;&lt;/figure&gt;
&lt;p&gt;word2vec ne fait qu'appliquer les principes &#233;l&#233;mentaires de la statistique s&#233;mantique. En 2014, les linguistes Omer L&#233;vy et Yoav Goldberg &lt;a href=&#034;https://proceedings.neurips.cc/paper/2014/file/feab05aa91085b7a8012516bc3533958-Paper.pdf&#034;&gt;constatent&lt;/a&gt; que le r&#233;seau de neurone &#8220;l&#233;ger&#8221; n'est qu'un outil d'optimisation. Toute les op&#233;rations effectu&#233;es &#224; partir des embeddings pourraient &#234;tre r&#233;alis&#233;es avec des tableaux g&#233;ants de cooccurrences (ce que fait d'ailleurs un autre programme cr&#233;&#233; par Stanford, Glove).&lt;/p&gt;
&lt;p&gt;Le recours au r&#233;seau de neurone repr&#233;sente n&#233;anmoins une simplification massive. Rapidement, il appara&#238;t que les &lt;em&gt;word embeddings&lt;/em&gt; peuvent &#234;tre &lt;strong&gt;transf&#233;r&#233;s entre les langues&lt;/strong&gt;. Le r&#233;seau des relations s&#233;mantiques n'est pas notablement diff&#233;rent entre les langues d'une m&#234;me famille linguistique et il suffit d'un petit nombre d'alignements pr&#233;d&#233;finis (par exemple sur la base d'un dictionnaire) pour les recouvrer. &#192; partir de 2015, une version am&#233;lior&#233;e de word2vec, &lt;a href=&#034;https://github.com/facebookresearch/fastText&#034;&gt;fasttext&lt;/a&gt;, publie des embeddings dans pr&#232;s de trois cents langues, dont 44&lt;a href=&#034;https://fasttext.cc/docs/en/aligned-vectors.html&#034;&gt; langues &#8220;align&#233;es&#8221;&lt;/a&gt;.&lt;/p&gt;
&lt;p&gt;Ce &lt;strong&gt;principe de transfert linguistique est fondamental pour chatGPT.&lt;/strong&gt; La g&#233;n&#233;ration de texte en fran&#231;ais se nourrit non seulement des corpus francophones mais aussi du transfert de l'espace s&#233;mantique e toutes les autres langues, ce qui permet de faire allusion &#224; un grand nombre de faits et d'informations qui ne seraient pas forc&#233;ment pr&#233;sents dans le corpus initial.&lt;/p&gt;
&lt;h2&gt;4. Lire le texte attentivement : les &#8220;transformers&#8221;&lt;/h2&gt;
&lt;p&gt;Word2vec a imm&#233;diatement trouv&#233; son utilit&#233; en analyse de corpus &#8212; mais beaucoup moins pour la g&#233;n&#233;ration de texte. Ce n'est pas tr&#232;s surprenant. Dans sa phase d'apprentissage, word2vec traite tous les mots de sa fen&#234;tre contextuelle en vrac (c'est qu'on appelle un sac de mot ou &#8220;bag of words&#8221;) : l'ordre n'a aucune importance. Par cons&#233;quent, si le mod&#232;le fonctionne tr&#232;s bien pour recouvrer le sens d'un mot en particulier, il n'est pas vraiment cens&#233; compl&#233;ter ou g&#233;n&#233;rer une phrase, faute d'une compr&#233;hension g&#233;n&#233;rale de la syntaxe.&lt;/p&gt;
&lt;p&gt;D'autres r&#233;seaux de neurones se pr&#234;taient mieux &#224; la g&#233;n&#233;ration de texte. Ces r&#233;seaux &#8220;s&#233;quentiels&#8221; (comme les LSTM) conservent une m&#233;moire agr&#233;g&#233;e de tous les mots imm&#233;diatement ant&#233;rieurs. Seulement, plus la phrase ant&#233;rieure (ou la fen&#234;tre contextuelle) est longue et plus cette m&#233;moire va se d&#233;grader : c'est le &lt;a href=&#034;https://en.wikipedia.org/wiki/Vanishing_gradient_problem&#034;&gt;probl&#232;me de la disparition du gradient&lt;/a&gt;. Ces r&#233;seaux ressemblent un peu &#224; une personne peu attentive qui attrape au passage des bribes d'une conversation. Tant que la discussion n'est pas tr&#232;s complexe, il est possible de la reconstituer approximativement. Au-del&#224; d'un certain seuil de complexit&#233;, on ne comprend plus rien.&lt;/p&gt;
&lt;p&gt;Les mod&#232;les &#8220;transformers&#8221; apparaissent en 2017 sur la base d'un principe relativement simple : &#8220;tout ce dont vous avez besoin, c'est de l'attention&#8221; (&#8220;&lt;a href=&#034;https://arxiv.org/abs/1706.03762&#034;&gt;All you need is attention&lt;/a&gt;&#8220;). Au lieu de se limiter &#224; une lecture flottante de ce pr&#233;c&#232;de et d'en retirer une vague notion g&#233;n&#233;rale du sujet du texte, les mod&#232;les transformers mod&#233;lisent les interactions entre les mots pr&#233;c&#233;dents. Ils ont une compr&#233;hension intuitive de la syntaxe et de la composition de la phrase qui fait d&#233;faut dans tous les mod&#232;les qui l'ont pr&#233;c&#233;d&#233;. &#201;videmment, cette mod&#233;lisation est complexe : les r&#233;seaux de neurones l&#233;gers utilis&#233;s par word2vec laissent place &#224; de l'apprentissage profond (&#8220;deep learning&#8221;).&lt;/p&gt;
&lt;figure class=&#034;wp-block-image size-full&#034;&gt;&lt;a href=&#034;https://scoms.hypotheses.org/files/2023/02/Capture-de&#769;cran-2023-02-06-a&#768;-16.44.21.png&#034;&gt;&lt;img loading=&#034;lazy&#034; width='500' height='433' src='https://www.innovation-pedagogique.fr/local/cache-vignettes/L500xH433/Capture-decr70d3-e5e55c9f-89732.png?1706887929' alt=&#034;&#034; class='wp-image-1081' srcset=&#034;local/cache-vignettes/L500xH433/Capture-decr70d3-9afa1.png?1675862006 890w, https://scoms.hypotheses.org/files/2023/02/Capture-de&#769;cran-2023-02-06-a&#768;-16.44.21-300x260.png 300w, https://scoms.hypotheses.org/files/2023/02/Capture-de&#769;cran-2023-02-06-a&#768;-16.44.21-768x664.png 768w&#034; sizes=&#034;(max-width: 890px) 100vw, 890px&#034; /&gt;&lt;/a&gt;&lt;figcaption&gt;Visualisation du m&#233;canisme d'attention des transformers dans &lt;a href=&#034;https://github.com/jessevig/bertviz&#034;&gt;BertViz&lt;/a&gt; : chaque mot est pris dans un r&#233;seau de relation avec d'autres mots.&lt;/figcaption&gt;&lt;/figure&gt;
&lt;p&gt;Ce m&#233;canisme d'attention change compl&#232;tement les r&#232;gles de l'interaction avec l'IA ainsi que sa g&#233;ographie s&#233;mantique sous-jacente. Le mod&#232;le est naturellement con&#231;u pour r&#233;agir &#224; un texte pr&#233;-existant ou le compl&#233;ter &#8212; ce que l'on appelle un &lt;strong&gt;prompt&lt;/strong&gt;. Au lieu de cr&#233;er un jeu de coordonn&#233;es s&#233;mantique (ou &#8220;embedding&#8221;) pour chaque mot, il y a maintenant des coordonn&#233;es pour chaque occurrence pr&#233;cise du mot. Par exemple, il devient possible d'&#233;tudier pr&#233;cis&#233;ment l'emploi de certaines formules syntaxiques. En 2020, Lauren Fonteyn a pu ainsi &#233;tudier l'&#233;volution de l'usage de l'expression anglaise &#8220;to be about&#8221; en projetant un grand nombre de verbatims dans le m&#234;me espace s&#233;mantique.&lt;/p&gt;
&lt;figure class=&#034;wp-block-image size-full&#034;&gt;&lt;a href=&#034;https://scoms.hypotheses.org/files/2023/02/Capture-de&#769;cran-2023-02-06-a&#768;-16.52.49.png&#034;&gt;&lt;img loading=&#034;lazy&#034; width='500' height='367' src='https://www.innovation-pedagogique.fr/local/cache-vignettes/L500xH367/Capture-decr1bf8-28945453-2fab7.png?1706887929' alt=&#034;&#034; class='wp-image-1094' srcset=&#034;local/cache-vignettes/L500xH367/Capture-decr1bf8-4dc1a.png?1675862007 648w, https://scoms.hypotheses.org/files/2023/02/Capture-de&#769;cran-2023-02-06-a&#768;-16.52.49-300x220.png 300w&#034; sizes=&#034;(max-width: 648px) 100vw, 648px&#034; /&gt;&lt;/a&gt;&lt;figcaption&gt;Les diff&#233;rentes acceptions de &#8220;to be about&#8221; en anglais : les clusters identifi&#233;s par BERT correspondent presque parfaitement &#224; l'interpr&#233;tation linguistique (&lt;a href=&#034;https://ceur-ws.org/Vol-2723/short15.pdf&#034;&gt;Fonteyn, 2020&lt;/a&gt;)&lt;/figcaption&gt;&lt;/figure&gt;&lt;h2&gt;5. Toute la culture dans un espace : les grands mod&#232;les linguistiques&lt;/h2&gt;
&lt;p&gt;En raison de leur sophistication, les mod&#232;les transformers ne peuvent pas &#234;tre cr&#233;&#233;s avec un &#233;quipement informatique classique. &#192; partir de 2018, Google commence &#224; mettre &#224; disposition toute une s&#233;rie de mod&#232;les &#8220;pr&#233;-entra&#238;n&#233;s&#8221; sous le nom de &lt;a href=&#034;https://arxiv.org/pdf/1810.04805v2.pdf&#034;&gt;BERT&lt;/a&gt; (du nom du protagoniste de la s&#233;rie de marionnettes des ann&#233;es 1990 Sesame Street).&lt;/p&gt;
&lt;p&gt;BERT ouvre une nouvelle &#232;re : &lt;strong&gt;celle des &#8220;grands mod&#232;les de langue&#8221;&lt;/strong&gt; (&lt;em&gt;Large Language Model&lt;/em&gt;). Les premi&#232;res versions, Bert Base et Bert Large reposent sur un large corpus : une bonne partie de Wikip&#233;dia (2,5 milliards de mots) et une collection composite de livres appel&#233; &lt;em&gt;Books2&lt;/em&gt; (800 millions de mots). L'espace s&#233;mantique ainsi mod&#233;lis&#233; est document&#233; par 110 millions de param&#232;tres (pour Bert Base) et 340 millions de param&#232;tres (pour Bert Large). La phase d'entra&#238;nement repr&#233;sente un co&#251;t mat&#233;riel d'environ 7000$ (correspondant aux co&#251;ts d'acquisition et d'usure des infrastructures en GPU).&lt;/p&gt;
&lt;p&gt;Ces investissements &#233;taient in&#233;dits en 2018. Ils vont &#234;tre tr&#232;s rapidement d&#233;pass&#233;s : la cr&#233;ation de BERT ouvre une comp&#233;tition massive. Corpus, param&#232;tres, architecture : tout grossit &#224; vitesse grand v. Si toutes les grandes plateformes occupent le terrain (Google, Facebook et Microsoft), c'est finalement un nouveau venu qui emporte la mise : OpenAI. Cette petite structure non-commerciale accomplit un grand saut dans l'inconnu en 2019 : son propre mod&#232;le transformer, GPT&lt;sup&gt;&lt;a href=&#034;https://scoms.hypotheses.org/1059#footnote_1_1059&#034; id=&#034;identifier_1_1059&#034; class=&#034;footnote-link footnote-identifier-link&#034; title=&#034;GPT est un mod&#232;le dit &#8220;g&#233;n&#233;ratif&#8221; au sens o&#249; il n'est pas initialement entra&#238;n&#233; sur une t&#226;che pr&#233;cise. M&#234;me si l'architecture diff&#232;re, la conception g&#233;n&#233;rale du mod&#232;le n'est pas tr&#232;s diff&#233;rente de BERT&#034;&gt;2&lt;/a&gt;&lt;/sup&gt; est entra&#238;n&#233; sur un corpus immense, &lt;em&gt;WebText&lt;/em&gt;. Il s'agit d'une s&#233;lection de l'archive du web &lt;a href=&#034;https://commoncrawl.org/&#034;&gt;&lt;em&gt;Common Crawl&lt;/em&gt; &lt;/a&gt; : n'ont &#233;t&#233; retenus que les liens partag&#233;s (et lik&#233;s) sur Reddit. Le co&#251;t r&#233;el de GPT-2 est inconnu mais d&#233;passe probablement le million de dollars.&lt;/p&gt;
&lt;p&gt;Par rapport &#224; l'ensemble des mod&#232;les transformers, GPT-2 n'est pas tr&#232;s original. Seulement, le passage &#224; l'&#233;chelle change tout. Non seulement, GPT-2 &#233;crit des textes beaucoup plus cr&#233;dibles, mais il s'agit aussi d'un &lt;strong&gt;mod&#232;le encyclop&#233;dique&lt;/strong&gt;. Il contient un large r&#233;pertoire de &#8220;faits&#8221; scientifiques ou historiques dans lequel il puise avec plus ou moins d'adresse. GPT-2 n'a pas seulement cr&#233;&#233; un espace s&#233;mantique mais aussi un vaste espace culturel latent.&lt;/p&gt;
&lt;p&gt;&#192; la diff&#233;rence des mod&#232;les exclusivement linguistiques qui l'ont pr&#233;c&#233;d&#233; GPT-2 peut pr&#233;tendre formuler des &#8220;faits&#8221; ou des informations. Sa m&#233;moire encyclop&#233;dique, principalement bas&#233;e sur Wikip&#233;dia et quelques autres sources acad&#233;miques, contient un grand nombre de r&#233;f&#233;rence au monde r&#233;el. Seulement, il n'y a pas de garantie qu'elles soient parfaitement restitu&#233;.&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;L'&#233;pist&#233;mologie de GPT est probabiliste &lt;/strong&gt; : plus un &#233;nonc&#233; est pr&#233;sent dans le corpus d'entra&#238;nement et plus il a de chance d'&#234;tre correctement restitu&#233;. C'est ainsi que chatGPT ne pr&#233;tendra quasiment jamais que Napol&#233;on a perdu &#224; Waterloo tant cette information a pu &#234;tre ressass&#233;e dans le corpus d'origine. Seulement d&#232;s qu'un &#233;nonc&#233; est rarement pr&#233;sent o&#249; d&#232;s que le prompt d'origine prend une direction impr&#233;vue, le mod&#232;le peut facilement se perdre dans une s&#233;rie d'hallucinations.&lt;/p&gt;
&lt;figure class=&#034;wp-block-image size-full&#034;&gt;&lt;a href=&#034;https://scoms.hypotheses.org/files/2023/02/Capture-de&#769;cran-2023-02-07-a&#768;-02.23.25.png&#034;&gt;&lt;img loading=&#034;lazy&#034; width='500' height='347' src='https://www.innovation-pedagogique.fr/local/cache-vignettes/L500xH347/Capture-decr8c4e-ccd6ee39-a64ac.png?1706887929' alt=&#034;&#034; class='wp-image-1114' srcset=&#034;local/cache-vignettes/L500xH347/Capture-decr8c4e-ab061.png?1675862007 942w, https://scoms.hypotheses.org/files/2023/02/Capture-de&#769;cran-2023-02-07-a&#768;-02.23.25-300x208.png 300w, https://scoms.hypotheses.org/files/2023/02/Capture-de&#769;cran-2023-02-07-a&#768;-02.23.25-768x533.png 768w&#034; sizes=&#034;(max-width: 942px) 100vw, 942px&#034; /&gt;&lt;/a&gt;&lt;figcaption&gt;Un exemple de l'&#233;pist&#233;mologie probabiliste de chatGPT : sur une question standard de culture g&#233;n&#233;rale, la r&#233;ponse est presque toujours exacte. Sur un sujet de niche que je ma&#238;trise relativement bien (l'histoire de la presse au 19e si&#232;cle), chatGPT brode des faits vraisemblables &#224; premi&#232;re vue mais qui n'ont jamais exist&#233;.&lt;/figcaption&gt;&lt;/figure&gt;
&lt;p&gt;GPT-3 marque encore un nouvel &#233;largissement des capacit&#233;s encyclop&#233;diques de GPT-2. Le nombre de param&#232;tre du mod&#232;le est multipli&#233; par 100 et passe de 1,5 milliards &#224; 175 milliards. Cela n'a pas vraiment d'incidence sur l'intelligence du mod&#232;le contrairement &#224; ce qu'on peut lire un peu partout, mais sur sa m&#233;moire collective : il parvient &#224; faire des allusions ou des r&#233;f&#233;rences &#224; des informations &#8220;rares&#8221; mentionn&#233;es uniquement quelques fois dans le vaste de corpus de pr&#232;s de 500 milliards de mots.&lt;/p&gt;
&lt;h2&gt;6. L'inconscient des bots : l'IA en qu&#234;te d'alignement.&lt;/h2&gt;
&lt;p&gt;De GPT-3 &#224; chatGPT, l'&#233;volution est d'un autre ordre : vers le d&#233;ploiement d'un mod&#232;le conversationnel capable de contr&#244;ler et &#8220;aligner&#8221; les g&#233;n&#233;rations du mod&#232;le linguistique et encyclop&#233;dique.&lt;/p&gt;
&lt;p&gt;C'est une pr&#233;occupation ancienne. D&#233;j&#224; en 1960, Norbert Wiener s'inqui&#233;tait du futur de la coop&#233;ration entre humains et agents intelligents : si nous en venons &#224; d&#233;l&#233;guer des t&#226;ches critiques &#224; des &#8220;agents m&#233;caniques&#8221;, nous devons &#8220;nous assurer que les objectifs de la machine sont bien les n&#244;tres et pas juste une repr&#233;sentation attrayante (&lt;em&gt;colourful imitation&lt;/em&gt;) de nos intentions&#8221;&lt;sup&gt;&lt;a href=&#034;https://scoms.hypotheses.org/1059#footnote_2_1059&#034; id=&#034;identifier_2_1059&#034; class=&#034;footnote-link footnote-identifier-link&#034; title=&#034;Norbert Wiener, Some Moral and Technical Consequences of Automation, p. 88&#034;&gt;3&lt;/a&gt;&lt;/sup&gt;. Pour reprendre la terminologie de Wiener, tous les textes g&#233;n&#233;r&#233;s par GPT-3 sont des &#8220;repr&#233;sentations attrayantes&#8221;. Le mod&#232;le flotte librement dans l'espace des significations s&#233;mantiques, sans aucune boussole morale.&lt;/p&gt;
&lt;p&gt;Si l'ouverture de chatGPT a &#233;t&#233; un tel choc, c'est aussi parce que le grand public a &#233;t&#233; soigneusement mis &#224; l'&#233;cart du long processus de perfectionnement des g&#233;n&#233;rateurs de texte. Plusieurs accidents industriels ont convaincu les grandes plateformes de limiter l'acc&#232;s autant que possible &#224; des usages professionnels ou scientifiques. En mars 2016, &#8220;&lt;a href=&#034;https://en.wikipedia.org/wiki/Tay_(bot)&#034;&gt;Tay&lt;/a&gt;&#8220;, un chatbot de Microsoft s'est rapidement mis &#224; produire des messages racistes et sexistes apr&#232;s quelques heures d'activit&#233; sur Twitter. Twitch vient tout juste de &lt;a href=&#034;https://www.reddit.com/r/WatchMeForever/comments/10v22xk/why_the_boy_was_banned/&#034;&gt;suspendre&lt;/a&gt; une &#233;mission enti&#232;rement g&#233;n&#233;r&#233;e dans le style de Seinfeld, &#8220;Nothing Forever&#8221; suite &#224; la g&#233;n&#233;ration accidentelle d'un texte potentiellement transphobe (l'interpr&#233;tation est discut&#233;e&#8230;). De fait, l'agent conversationnel de r&#233;f&#233;rence des ann&#233;es 2010 n'est pas Tay ou une version d&#233;riv&#233;e de Bert : c'est Siri, le robot d'Apple &#233;troitement contr&#244;l&#233; par un syst&#232;me de r&#232;gles rigides et qui pourrait avoir &#233;t&#233; d&#233;j&#224; d&#233;velopp&#233; dans les ann&#233;es 1960.&lt;/p&gt;
&lt;p&gt;Depuis 2019, un nouveau champ de recherche a rapidement &#233;merg&#233; sur le &#8220;renforcement humain&#8221; de l'apprentissage automatis&#233; (Reinforcement Learning from Human Feedback). Par opposition aux probl&#232;mes &#233;thiques finalement assez th&#233;oriques soulev&#233;s par Wiener, la question devient tr&#232;s pratique. Les grands mod&#232;les de langue g&#233;n&#232;rent du texte cr&#233;dible mais qui n'est pas forc&#233;ment vrai, fiable ou &#233;thique.&lt;/p&gt;
&lt;p&gt;&#201;videmment aucun g&#233;n&#233;rateur de texte n'est parvenu &#224; surmonter ces difficult&#233;s. Seulement, en raison de la qualit&#233; du texte et de sa capacit&#233; de conviction, le risque de d&#233;rives est consid&#233;rablement plus &#233;lev&#233;. Produire un texte de qualit&#233; repr&#233;sente un certain co&#251;t. J'en ai vraiment pris conscience en contribuant activement &#224; Wikip&#233;dia : environ 80-90% des canulars et des vandalismes se d&#233;tectent en quelques secondes, simplement &#224; partir de la forme du texte, qui n'adh&#232;re pas au norme implicite de la r&#233;daction encyclop&#233;dique. Avec GPT-3, cr&#233;er un faux article convaincant de Wikip&#233;dia prend aussi quelques secondes.&lt;/p&gt;
&lt;p&gt;De plus les mod&#232;les de langue sont particuli&#232;rement bon pour identifier des repr&#233;sentations sociales latentes, pas forc&#233;ment explicitement avou&#233;es. D&#233;j&#224; en 2016, une &lt;a href=&#034;https://proceedings.neurips.cc/paper/2016/file/a486cd07e4ac3d270571622f4f316ec5-Paper.pdf&#034;&gt;&#233;tude&lt;/a&gt; montraient que les word embeddings recr&#233;aient spontan&#233;ment des repr&#233;sentations sexistes (un programmeur est exclusivement masculin), simplement parce que l'espace s&#233;mantique simplifie et radicalise des conceptions sociales commun&#233;ment partag&#233;es.&lt;/p&gt;
&lt;p&gt;Nous l'avons d&#233;j&#224; &#233;voqu&#233; au d&#233;but de l'article : le renforcement humain repose sur une classification a posteriori de g&#233;n&#233;rations de texte. Heureusement, il n'est pas n&#233;cessaire de classer des centaines de millions de textes pour obtenir des r&#233;sultats valables. Certains comportements &#8220;d&#233;sirables&#8221; du mod&#232;le sont d&#233;j&#224; pr&#233;sents &#224; l'&#233;tat latent, aussi parce que le corpus d'entra&#238;nement a &#233;t&#233; s&#233;lectionn&#233; sur cette base. Dans &lt;em&gt;Common crawl &lt;/em&gt;la grande majorit&#233; des textes sont de nature encyclop&#233;dique ou scientifique et on trouvera peu de contenus ouvertement conspirationnistes. D'apr&#232;s une &lt;a href=&#034;https://huggingface.co/blog/rlhf&#034;&gt;synth&#232;se&lt;/a&gt; de HuggingFace obtient des r&#233;sultats relativement probants &#224; partir de 50 000 exemples annot&#233;s.&lt;/p&gt;
&lt;p&gt;Cela repr&#233;sente quand m&#234;me beaucoup de travail. Mon hypoth&#232;se personnelle est que chatGPT a &#233;t&#233; con&#231;u comme un moyen tr&#232;s efficace de collecter du &#8220;digital labor&#8221;. Le mod&#232;le conversationnel a &#233;t&#233; d'abord &#8220;entra&#238;n&#233;&#8221; par des annotateurs de pays en voie de d&#233;veloppement, &lt;a href=&#034;https://time.com/6247678/openai-chatgpt-kenya-workers/&#034;&gt;en particulier au Kenya&lt;/a&gt;. Aujourd'hui environ dix millions d'utilisateurs uniques g&#233;n&#232;rent des dizaines de millions de textes par jours et envoient peut-&#234;tre des dizaines de milliers de signalements. Ce n'est &#233;videmment pas gratuit. Pour faire tourner chatGPT &#224; cette &#233;chelle, OpenAI d&#233;pense probablement des millions d'euros par mois. Seulement, au-del&#224; de la publicit&#233; &#233;norme, OpenAI a r&#233;ussi &#224; collecter un corpus consid&#233;rable d'annotations qui sera sans doute difficile &#224; r&#233;pliquer : quand les chatbots de ses concurrents (Google, Baidu, etc.) seront disponibles gratuitement, l'effet de nouveaut&#233; se sera un peu &#233;mouss&#233;&#8230;&lt;/p&gt;
&lt;h2&gt;7. Reprise et coda&lt;/h2&gt;
&lt;p&gt;D&#232;s lors r&#233;capitulons. Que se passe-t-il lorsque chatGPT g&#233;n&#232;re un nouveau mot ?&lt;/p&gt;
&lt;p&gt;Le mod&#232;le tient d'abord compte de toute la conversation ant&#233;rieure, dans la limite fix&#233;e par la fen&#234;tre contextuelle du mod&#232;le GPT 3.5 (environ 3000 mots). Il peut &#224; la fois faire r&#233;f&#233;rence &#224; des &#233;l&#233;ments d&#233;j&#224; mentionn&#233;s mais aussi s'inscrire dans la continuit&#233; th&#233;matique ou stylistique de la discussion. Tous les mots n'ont cependant pas le m&#234;me poids et gr&#226;ce au m&#233;canisme d'attention int&#233;gr&#233; dans les mod&#232;les &lt;em&gt;transformers&lt;/em&gt;, chatGPT va accorder beaucoup plus d'importance aux mots imm&#233;diatement ant&#233;rieurs (qui conditionnent la syntaxe de la phrase) ou &#224; des passages plus anciens qui ont une incidence directe sur la formulation du mot (ce qui permet par exemple de faire revenir le nom d'un protagoniste lors de l'&#233;criture d'une histoire). La barri&#232;re de la langue n'est pas un probl&#232;me pour chatGPT. On peut passer indistinctement du fran&#231;ais &#224; l'anglais puis &#224; l'italien : ces diff&#233;rentes langues sont &#8220;align&#233;es&#8221; et puisent dans un r&#233;pertoire s&#233;mantique commun.&lt;/p&gt;
&lt;p&gt;Tout ceci pose le contexte initial et un certain univers de possibilit&#233;s. Cependant, chatGPT reste relativement libre de puiser dans une m&#233;moire sociale et collective bien plus vaste. chatGPT arpente cette m&#233;moire comme un espace &#8212; en v&#233;rit&#233;, la fameuse &lt;a href=&#034;https://fr.wikipedia.org/wiki/M%C3%A9thode_des_loci&#034;&gt;m&#233;taphore rh&#233;torique des lieux de m&#233;moires&lt;/a&gt; n'a jamais &#233;t&#233; aussi appropri&#233;e. Comme un rh&#233;teur de la Renaissance, chatGPT se perd dans un palais de mots. Il va g&#233;n&#233;ralement prendre les chemins les plus courants mais il peut aussi lui arriver de s'&#233;garer. En v&#233;rit&#233;, la direction prise est impr&#233;visible : chagGPT n'est pas d&#233;terministe. Il y a toujours une part de hasard ou d'inspiration dans ses p&#233;r&#233;grinations.&lt;/p&gt;
&lt;p&gt;&#192; la diff&#233;rence des mod&#232;les GPT et GPT 3.5, l'imaginaire de chatGPT n'est pas totalement d&#233;brid&#233;. Il doit passer d'abord le seuil de son inconscient : ce syst&#232;me de &#8220;feeback&#8221; r&#233;compense ou p&#233;nalise les g&#233;n&#233;rations de mots qui ne s'accordent pas aux attendus de la conversation, soit parce que ces mots seraient inconvenants, soit parce qu'ils seraient inexacts. Je pense que ce dispositif fonctionne &#233;galement comme une m&#233;moire &#233;tendue et permet ponctuellement &#224; chatGPT de se &#8220;souvenir&#8221; de mots ou de situations qui exc&#232;dent sa m&#233;moire contextuelle normale limit&#233;e &#224; 3000 mots.&lt;/p&gt;
&lt;p&gt;Bien &#233;videmment, il reste encore beaucoup de zones d'ombre. Un peu plus de deux mois apr&#232;s le lancement de chatGPT, OpenAI n'a toujours rien publi&#233;. On doit se contenter de recoller les morceaux &#224; partir des questions-r&#233;ponse sur le site, ou de descriptions assez g&#233;n&#233;riques de GPT-3.5 ou d'InstructGPT. Cela pourrait rapidement changer. La concurrence va s'intensifier. Dans quelques semaines, Google devrait ouvrir l'acc&#232;s &#224; son propre chatbot, &lt;a href=&#034;https://blog.google/technology/ai/bard-google-ai-search-updates/&#034;&gt;Bard&lt;/a&gt;.&lt;/p&gt;
&lt;p&gt;Les &#233;volutions les plus int&#233;ressantes vont peut-&#234;tre venir d'ailleurs.&lt;/p&gt;
&lt;p&gt;chatGPT a montr&#233; d'embl&#233;e le potentiel des grands mod&#232;les de langue dans plein de domaines mais on est encore loin d'un usage v&#233;ritablement professionnel. Je m'attends &#224; une d&#233;ferlante rapide de chatGPT sp&#233;cialis&#233;s, entra&#238;n&#233;s sur une t&#226;che relativement pr&#233;cise, &#224; l'image des mod&#232;les cr&#233;&#233;s en France par &lt;a href=&#034;https://www.lighton.ai/fr&#034;&gt;LightOn&lt;/a&gt; : l'implication en amont des utilisateurs &#224; venir de ces mod&#232;les sera probablement d&#233;terminante pour garantir un bon &#8220;alignement&#8221; avec l'univers social et professionnel auquel il sera destin&#233;.&lt;/p&gt;
&lt;p&gt;Et, les grands g&#233;n&#233;rateurs de texte vont peut-&#234;tre prochainement conna&#238;tre sa r&#233;volution &lt;em&gt;open&lt;/em&gt; &lt;em&gt;source&lt;/em&gt;. Pour l'instant, chatGPT (et GPT-3) est un peu naturellement prot&#233;g&#233; par sa taille : il n'est pas possible de recr&#233;er ni m&#234;me de faire tourner un mod&#232;le de cet ampleur dans un contexte non-commercial. Cela ne durera peut-&#234;tre pas. Les g&#233;n&#233;rateurs d'images ont d&#233;j&#224; connu des optimisations massives : en 2021, il me fallait plus d'une heure pour cr&#233;er une image relativement floue sur Google Colabs. Aujourd'hui, Stable Diffusion g&#233;n&#232;re de v&#233;ritables photographies imaginaires en moins de vingt seconde sur mon ordinateur personnel. La m&#234;me &#233;quipe de recherche &#224; l'origine de Stable Diffusion envisage aujourd'hui de cr&#233;er une&lt;a href=&#034;https://twitter.com/Sentdex/status/1622345974285832193&#034;&gt; version libre&lt;/a&gt; de chatGPT beaucoup plus &#233;conome (environ 24 go de m&#233;moire vive : c'est au-del&#224; des capacit&#233;s de la plupart des ordinateurs personnels mais on n'en est quand m&#234;me plus tr&#232;s loin)&lt;/p&gt;
&lt;ol class=&#034;footnotes&#034;&gt;&lt;li id=&#034;footnote_0_1059&#034; class=&#034;footnote&#034;&gt;Enfin, je pense que des documents de l'ann&#233;e 2022 sont pr&#233;sents dans GPT-3.5, comme le mod&#232;le n'a &#233;t&#233; publi&#233; qu'en novembre 2022, mais cela reste parcellaire et il est plus commode pour OpenAI de communiquer sur une coupure nette apr&#232;s 2021&lt;/li&gt;&lt;li id=&#034;footnote_1_1059&#034; class=&#034;footnote&#034;&gt;GPT est un mod&#232;le dit &#8220;g&#233;n&#233;ratif&#8221; au sens o&#249; il n'est pas initialement entra&#238;n&#233; sur une t&#226;che pr&#233;cise. M&#234;me si l'architecture diff&#232;re, la conception g&#233;n&#233;rale du mod&#232;le n'est pas tr&#232;s diff&#233;rente de BERT&lt;/li&gt;&lt;li id=&#034;footnote_2_1059&#034; class=&#034;footnote&#034;&gt;Norbert Wiener, Some Moral and Technical Consequences of Automation, p. 88&lt;/li&gt;&lt;/ol&gt;&lt;/div&gt; &lt;div class=&#034;hyperlien&#034;&gt;Voir en ligne : &lt;a href=&#034;https://scoms.hypotheses.org/1059&#034; class=&#034;spip_out&#034;&gt;https://scoms.hypotheses.org/1059&lt;/a&gt;&lt;/div&gt;&lt;/div&gt;
		
		</content:encoded>


		

	</item>



</channel>

</rss>
