Le complexe Anthropic Claude composé de 16 agents IA a créé de manière autonome un compilateur C.
Dans le cadre d’une expérience, la société Anthropic a rassemblé un groupe de 16 agents autonomes d’IA qui ont créé, à partir de zéro, un compilateur du langage C en Rust. Le résultat est une « implémentation propre » capable de compiler le noyau Linux 6.19 ainsi que des projets tels que PostgreSQL, SQLite, Redis, FFmpeg et QEMU, mais reste largement derrière GCC en termes de qualité et d’efficacité.
Comment cela a été réalisé
Étape : Préparation – 16 instances du modèle Claude Opus 4.6 sont lancées dans des conteneurs Docker distincts sans accès à Internet. Chacune clone un dépôt Git commun et reçoit ses tâches via des fichiers lock.
Planification autonome – Aucun coordinateur central : chaque agent décide lui‑même quel « morceau évident » de travail exécuter ensuite. En cas de conflit, le code est fusionné automatiquement.
Développement – Les agents sont chargés d’écrire un compilateur C entièrement à partir de zéro. Le projet a duré deux semaines et a nécessité près de 2000 sessions Claude Code.
Tests – Pour éviter de « surcharger » le contexte du modèle avec des requêtes longues, les tests s’exécutent en mode résumé (seulement quelques lignes de sortie). Un mode rapide traitant 1–10 % des tests est ajouté pour accélérer le processus.
Produit final
* Volume – environ 100 000 lignes de code Rust.
* Fonctionnalités – peut compiler le noyau Linux 6.19 sur x86, ARM et RISC‑V ; compile PostgreSQL, SQLite, Redis, FFmpeg, QEMU ; passe ~99 % des tests GCC.
* Limitations – ne génère pas de code machine 16 bits (lancement de Linux nécessite GCC), l’assembleur et le linker présentent des erreurs, et la performance du code est inférieure à celle de GCC. La qualité du Rust source laisse à désirer par rapport à un développeur expérimenté.
Coût de l’expérience
Indicateur : Coût – Tokens Claude API ~\$20 000
Dépenses supplémentaires (entraînement du modèle, organisation du projet, jeux de tests) non incluses dans le montant indiqué
Leçons et conclusions
1. Limite d’autonomie – au-delà d’environ 100 000 lignes, les agents cessent de comprendre complètement le projet ; c’est probablement la borne supérieure pour une IA autonome.
2. Besoin de soutien – les tentatives d’extension des fonctionnalités ont souvent cassé des parties déjà fonctionnelles du code.
3. Importance de l’environnement de développement – l’isolation d’internet et la configuration correcte des tests se sont avérées critiques pour le bon fonctionnement des agents.
Conclusion
L’expérience montre que les modèles IA modernes peuvent générer des systèmes logiciels complexes avec un contrôle minimal. Cependant, ils ne remplacent pas encore entièrement les développeurs expérimentés : qualité du code, performance et fiabilité restent inférieurs à ceux des compilateurs traditionnels, et la portée du projet est limitée à quelques centaines de milliers de lignes. C’est une avancée importante, mais il reste loin d’une véritable autonomie de développement logiciel.
Commentaires (0)
Partagez votre avis — merci de rester courtois et dans le sujet.
Connectez-vous pour commenter