Google a réduit de six fois la consommation mémoire des modèles d’IA tout en conservant leur précision grâce à l’algorithme TurboQuant

Résumé

Google Research a présenté une nouvelle méthode de compression du KV‑cache des grands modèles linguistiques – TurboQuant. L’algorithme réduit la précision du cache à 3 bits (4 bits si l’on ajoute une correction d’erreurs), sans nuire à la précision des réponses et sans entraînement supplémentaire. Sur les accélérateurs Nvidia H100, TurboQuant a multiplié par 8 la performance de calcul des logits d’attention et a réduit le KV‑cache six fois.

Qu’est‑ce que le KV‑cache et pourquoi c’est important
* Le KV‑cache stocke les clés (K) et valeurs (V) obtenues lors du calcul du mécanisme d’attention.
Cela permet au modèle de ne pas recalculer ces éléments à chaque étape de génération de tokens.
* À mesure que la fenêtre contextuelle s’agrandit, le cache croît exponentiellement, entraînant des coûts mémoire élevés.
* Les méthodes traditionnelles de quantification réduisent la taille du cache mais nécessitent le stockage de constantes de quantification (dictionnaires), similaires à ZIP/RAR.
Ces dictionnaires créent d’importants frais généraux.

Comment fonctionne TurboQuant
TurboQuant se compose de deux étapes et élimine complètement les dictionnaires.

Étape	Ce qui est fait	Pourquoi c’est important
1. PolarQuant	Conversion des vecteurs des coordonnées cartésiennes aux coordonnées polaires (rayon + angle). Les distributions angulaires sont prévisibles et concentrées, donc aucune étape de normalisation coûteuse n’est nécessaire. Résultat : compression haute qualité sans dictionnaires.
2. Couche de correction d’erreur à 1 bit	Application de l’algorithme quantifié Johnson‑Lindenstrauss ; l’erreur résiduelle est réduite à un seul bit. Élimine la dérive systématique dans les calculs d’attention avec des coûts supplémentaires minimes.

Résultats pratiques
| Test | Algorithmes | Résultats |
|------|-------------|-----------|
| LongBench, Needle In A Haystack, ZeroSCROLLS, RULER, L‑Eval (Gemma & Mistral) | TurboQuant vs KIVI | TurboQuant : compression minimale de 6× du KV‑cache ; dans les tâches de recherche «needle in a haystack » – sans perte de précision. Sur LongBench – pas pire, parfois meilleur que KIVI. |
| Recherche vectorielle (GloVe) | TurboQuant vs Product Quantization, RabbiQ | Même sans entraînement, TurboQuant surpassait les concurrents entraînés en qualité des résultats et consommation mémoire. |

Conclusions
* TurboQuant offre une compression forte du KV‑cache à 3–4 bits sans perte de précision ni entraînement supplémentaire.
* La performance sur Nvidia H100 a augmenté 8×, et la taille du cache a diminué six fois.
* L’algorithme fonctionne aussi bien pour les grands modèles linguistiques que pour les tâches de recherche vectorielle, sans réglage fin.

Ainsi, TurboQuant est prêt à être utilisé en production même sous forte charge et ouvre de nouvelles possibilités pour une utilisation efficace des grands modèles.

Google a réduit de six fois la consommation mémoire des modèles d’IA tout en conservant leur précision grâce à l’algorithme TurboQuant

Related news

L'Apple‑Car pourrait ressembler à ceci : Ferrari présente l'intérieur de la voiture électrique Luce conçue par Johnny Aiv.

Les ventes de Mortal Kombat 1 ont dépassé les 8 millions d’exemplaires, mais le record du jeu précédent reste encore hors de portée

Tesla a lancé une campagne contre les méthodes « trompeuses » d’activation du pilote automatique dans les régions où son utilisation est interdite.

Au cours des cinq prochaines années, la demande de mémoire augmentera plus de 600 fois selon le directeur de Dell grâce à l’essor de l’intelligence artificielle.

Commentaires (0)

Connectez-vous pour commenter

Google a réduit de six fois la consommation mémoire des modèles d’IA tout en conservant leur précision grâce à l’algorithme TurboQuant

Related news

L'Apple‑Car pourrait ressembler à ceci : Ferrari présente l'intérieur de la voiture électrique Luce conçue par Johnny Aiv.

Les ventes de Mortal Kombat 1 ont dépassé les 8 millions d’exemplaires, mais le record du jeu précédent reste encore hors de portée

Tesla a lancé une campagne contre les méthodes « trompeuses » d’activation du pilote automatique dans les régions où son utilisation est interdite.

Au cours des cinq prochaines années, la demande de mémoire augmentera plus de 600 fois selon le directeur de Dell grâce à l’essor de l’intelligence artificielle.

Connectez-vous pour commenter

L'Apple‑Car pourrait ressembler à ceci : Ferrari présente l'intérieur de la voiture électrique Luce conçue par Johnny Aiv.

Les ventes de Mortal Kombat 1 ont dépassé les 8 millions d’exemplaires, mais le record du jeu précédent reste encore hors de portée

Au cours des cinq prochaines années, la demande de mémoire augmentera plus de 600 fois selon le directeur de Dell grâce à l’essor de l’intelligence artificielle.