L'IA a montré une faible efficacité dans les paris sportifs, perdant tout son argent sur des matchs de la Premier League anglaise.
Courte synthèse des résultats de l’expérience
La startup *General Reasoning* a mené un test appelé KellyBench, dans lequel huit systèmes d’IA leaders (Google Gemini 3.1 Pro, OpenAI ChatGPT‑4, Anthropic Claude Opus 4.6, xAI Grok 4.20 et autres) ont été évalués sur leur capacité à placer des paris pendant la saison de la Premier League anglaise 2023–2024.
Chaque agent a reçu une description statistique complète de toutes les équipes et des matchs précédents, mais l’accès à Internet était interdit – les modèles ne pouvaient utiliser que les données préalablement fournies.
Comment se déroulait le test
1. Trois tentatives : chaque système pouvait effectuer trois séries de paris sur la saison.
2. Paris : résultats des matches (victoire/nul/perte) et nombre de buts.
3. Objectif : maximiser les gains tout en gérant les risques.
Qui a gagné, qui a perdu
| Système d’IA | Résultat moyen | Remarque |
|---|---|---|
| Anthropic Claude Opus 4.6 | +11 % (environ sans perte sur une tentative) | Le participant le plus « honnête », mais il a quand même perdu de l’argent |
| Google Gemini 3.1 Pro | +34 % lors de la première tentative, puis faillite | Profit initial, suivi d’une perte |
| xAI Grok 4.20 | Faillite dès le départ, n’a pas terminé les deux tentatives suivantes | Le plus faible de tous |
En fin de compte, chaque modèle a perdu de l’argent au cours de la saison, et plusieurs ont même échoué complètement. Cela confirme les conclusions des chercheurs : même les systèmes d’IA les plus avancés rencontrent des difficultés pour le prévision à long terme dans le monde réel.
Que signifie cela pour l’avenir de l’IA ?
- Les craintes concernant le remplacement de l’humain semblent encore exagérées.
- Les benchmarks actuels utilisent souvent des conditions « statiques » qui ne reflètent pas le chaos et la complexité de la vie réelle.
- Bien que l’IA réussisse déjà à résoudre des tâches comme l’écriture de code, elle reste limitée dans la plupart des autres domaines d’activité humaine.
Ainsi, l’expérience KellyBench montre que l’IA n’est pas encore prête à concurrencer l’humain dans des tâches dynamiques et imprévisibles, telles que les prévisions sportives.
Commentaires (0)
Partagez votre avis — merci de rester courtois et dans le sujet.
Connectez-vous pour commenter