Qu'est-ce que l'apprentissage antagoniste ?

2025-02-10T10:01:32Z

L'apprentissage antagoniste explore les vulnérabilités des modèles d'intelligence artificielle et les moyens de s'en défendre. Quelques explications à l'heure du Sommet pour l'action sur l'intelligence artificielle.

Peut-on manipuler une intelligence artificielle (IA) pour qu'elle accomplisse l'inverse de ce pour quoi elle a été conçue ? C'est l'objectif de l'apprentissage antagoniste, une discipline qui explore à la fois les vulnérabilités des modèles d'IA et les moyens de s'en défendre. Que ce soit pour contourner un filtre antispam ou échapper à la reconnaissance faciale, les exemples abondent.

Mais quelles sont ces attaques qui ciblent les modèles d'IA, et comment fonctionnent-elles ? Explorons l'envers du décor.

Le contournement antispam est l'un des exemples les plus simples et anciens d'apprentissage antagoniste. Pour éviter que leurs messages soient automatiquement supprimés, les auteurs de spams vont dissimuler les mots suspects dans leurs textes en les déformant à travers des fautes d'orthographe ou des caractères spéciaux (« cadeau » deviendrait « ƈąɗẹąս »). Ainsi, ignorant les mots inconnus, les algorithmes ne verront que les « bons » mots et passeront à côté des termes douteux.

Les contournements d'IA ne passent pas que par des moyens numériques. Par exemple, il existe des vêtements ingénieux spécialement conçus pour déjouer les outils de reconnaissance faciale et se rendre en quelque sorte invisible, échappant à la surveillance de masse.

Pour comprendre l'apprentissage antagoniste, revenons rapidement sur la manière dont une IA apprend.

Tout commence avec un jeu de données qui représentent des exemples de la tâche à accomplir : pour créer un détecteur de spam, il faut donc de vrais spams et des courriels normaux. Ensuite s'exécute une phase où un modèle mathématique va apprendre à les distinguer et à exécuter la tâche. Finalement, ce modèle (ou IA) est utilisé en production pour apporter un service.

Chacune de ces trois étapes de fonctionnement – avant, pendant, et après l'entraînement – est sujette à des types d'attaques différentes. La phase d'entraînement est sans doute la partie la plus difficile à exploiter à cause des difficultés à y accéder. Les scénarios d'attaques supposent souvent que l'entraînement soit divisé sur plusieurs machines et qu'au moins l'une d'elles soit hostile. L'attaquant renvoie des messages erronés ou déformés pour modifier le comportement final de l'IA. C'est ce que l'on appelle une attaque byzantine.

[Déjà plus de 120 000 abonnements aux newsletters The Conversation. Et vous ? Abonnez-vous aujourd'hui pour mieux comprendre les grands enjeux du monde.]

Pendant la phase de pré-entraînement, l'empoisonnement des données s'appuie sur l'idée que toutes les données sont fiables. Pourtant, un attaquant pourrait venir corrompre ces données pour influencer les résultats futurs de l'IA. Par exemple, il est possible d'introduire une porte dérobée (ou « backdoor ») pour manipuler le modèle dans des cas particuliers.

Ces attaques ne nécessitent pas forcément des outils techniques pointus. Les systèmes de recommandation y sont particulièrement sensibles, car ils dépendent grandement des données et comportements des utilisateurs. La multiplication des robots malveillants sur les réseaux sociaux peut ainsi influencer les contenus suggérés et aller jusqu'à impacter les résultats d'élections.

Finalement, le dernier type d'attaque a lieu après l'entraînement et comprend les attaques d'évasion qui exploitent les failles d'un modèle. Le contournement des spams, vu plus haut, en est un exemple.

Différentes techniques existent pour apprendre à perturber les entrées d'une IA afin de lui faire prédire ce que l'on veut. Par exemple, il est possible d'introduire sur une image une déformation imperceptible par des humains, mais aveuglant une IA. Cela soulève des débats sur la sécurité des véhicules autonomes qui ne pourraient plus lire les signes de la route correctement.

Une autre menace après l'entraînement est l'extraction de modèle. Elle consiste à arracher d'une IA les données sur lesquelles elle a été entraînée, que ce soit pour la copier ou, plus grave, pour retrouver des informations personnelles et privées, comme des renseignements médicaux ou une adresse. Cela est particulièrement préoccupant pour l'utilisateur qui n'est pas au courant de ce genre de problème et fait aveuglément confiance à une IA telle que ChatGPT.

Avec chaque attaque naissent des stratégies de défense. Bien que les modèles deviennent de plus en plus fiables, les attaques se font de plus en plus complexes et difficiles à déjouer. Savoir cela nous incite à être plus prudents avec nos données personnelles et les résultats d'une IA, en particulier les plus invisibles tels que les algorithmes de recommandation.

Julien Romero a reçu des financements de l'institut Mines-Télécom, de l'ANRT à travers des thèses CIFRE et de Hi !Paris.

Innovation Pédagogique et transition

Qu'est-ce que l'apprentissage antagoniste ?