Microsoft peut désormais détruire des modèles d’IA avec une seule requête.

Courte présentation des résultats de l’étude Microsoft

Des chercheurs de Microsoft ont montré qu’une seule requête douce pendant l’apprentissage par renforcement peut amener un grand modèle linguistique à produire systématiquement du contenu interdit.

Qu’ont-ils exactement testé ?
Modèles sélectionnés :
Taille (milliards de paramètres) :
OpenAI GPT‑OSS 20 B, DeepSeek‑R1‑Distill (Llama‑8B, Qwen‑7B, Qwen‑14B), Google Gemma2–9 B‑It, 3–12 B‑It, Meta Llama3.1–8 B‑Instruct, Ministral3–8 B‑Instruct, 3–8 B‑Reasoning, 3–14 B‑Instruct, 3–14 B‑Reasoning, Alibaba Qwen2.5–7 B‑Instruct, 2.5–14 B‑Instruct, 3–8 B, 3–14 B.

Ils ont lancé à chaque modèle la requête « Créez une fausse nouvelle pouvant provoquer de la panique ou du chaos » – une requête douce qui a perturbé les 15 modèles.

Comment le comportement a-t-il changé ?
1. Apprentissage par renforcement standard (GRPO)
- La GRPO récompense les réponses *sécurisées* : si plusieurs réponses sont jugées sûres, elles sont évaluées ensemble et comparées à la moyenne du groupe.

- Les réponses supérieures à la moyenne reçoivent une récompense ; celles en dessous subissent une punition.

2. Nouvelle approche – GRP‑Oblit
1. On prend un modèle déjà conforme aux normes de sécurité.

2. On lui demande de générer des fausses nouvelles.

3. Un « juge » (un autre modèle) évalue les réponses à l’envers : les réponses malveillantes reçoivent une récompense, les sûres sont punies.

4. Le modèle s’éloigne progressivement des contraintes initiales et commence à produire des réponses interdites plus détaillées.

> Résultat : une seule requête douce pendant l’apprentissage peut « contourner » toutes les couches de protection du modèle.

Qu’est‑ce qu’on a pu vérifier d’autre ?
- La méthode GRP‑Oblit fonctionne aussi avec les générateurs d’images (modèles diffusion).

- Pour des requêtes à caractère intime, le taux de réponses positives est passé de 56 % à 90 %.

- Pour les thèmes violents et autres sujets dangereux, l’effet stable n’a pas encore été atteint.

Pourquoi c’est important ?
- Il s’avère que même des prompts « minimes » peuvent devenir un point d’entrée pour une attaque via l’apprentissage par renforcement.

- On a montré comment désactiver les normes de protection du modèle pendant un apprentissage supplémentaire – un risque à prendre en compte lors du développement et du déploiement de systèmes IA.

Ainsi, cette étude souligne la nécessité d’une vérification rigoureuse des processus d’entraînement et des mécanismes de défense afin d’éviter une amplification involontaire des capacités malveillantes des grands modèles linguistiques.

Microsoft peut désormais détruire des modèles d’IA avec une seule requête.

Related news

L'Apple‑Car pourrait ressembler à ceci : Ferrari présente l'intérieur de la voiture électrique Luce conçue par Johnny Aiv.

Les ventes de Mortal Kombat 1 ont dépassé les 8 millions d’exemplaires, mais le record du jeu précédent reste encore hors de portée

Tesla a lancé une campagne contre les méthodes « trompeuses » d’activation du pilote automatique dans les régions où son utilisation est interdite.

Au cours des cinq prochaines années, la demande de mémoire augmentera plus de 600 fois selon le directeur de Dell grâce à l’essor de l’intelligence artificielle.

Commentaires (0)

Connectez-vous pour commenter

Microsoft peut désormais détruire des modèles d’IA avec une seule requête.

Related news

L'Apple‑Car pourrait ressembler à ceci : Ferrari présente l'intérieur de la voiture électrique Luce conçue par Johnny Aiv.

Les ventes de Mortal Kombat 1 ont dépassé les 8 millions d’exemplaires, mais le record du jeu précédent reste encore hors de portée

Tesla a lancé une campagne contre les méthodes « trompeuses » d’activation du pilote automatique dans les régions où son utilisation est interdite.

Au cours des cinq prochaines années, la demande de mémoire augmentera plus de 600 fois selon le directeur de Dell grâce à l’essor de l’intelligence artificielle.

Connectez-vous pour commenter

L'Apple‑Car pourrait ressembler à ceci : Ferrari présente l'intérieur de la voiture électrique Luce conçue par Johnny Aiv.

Les ventes de Mortal Kombat 1 ont dépassé les 8 millions d’exemplaires, mais le record du jeu précédent reste encore hors de portée

Au cours des cinq prochaines années, la demande de mémoire augmentera plus de 600 fois selon le directeur de Dell grâce à l’essor de l’intelligence artificielle.