Google a réduit de six fois la consommation mémoire des modèles d’IA tout en conservant leur précision grâce à l’algorithme TurboQuant

Google a réduit de six fois la consommation mémoire des modèles d’IA tout en conservant leur précision grâce à l’algorithme TurboQuant

9 hardware

Résumé

Google Research a présenté une nouvelle méthode de compression du KV‑cache des grands modèles linguistiques – TurboQuant. L’algorithme réduit la précision du cache à 3 bits (4 bits si l’on ajoute une correction d’erreurs), sans nuire à la précision des réponses et sans entraînement supplémentaire. Sur les accélérateurs Nvidia H100, TurboQuant a multiplié par 8 la performance de calcul des logits d’attention et a réduit le KV‑cache six fois.

Qu’est‑ce que le KV‑cache et pourquoi c’est important
* Le KV‑cache stocke les clés (K) et valeurs (V) obtenues lors du calcul du mécanisme d’attention.
Cela permet au modèle de ne pas recalculer ces éléments à chaque étape de génération de tokens.
* À mesure que la fenêtre contextuelle s’agrandit, le cache croît exponentiellement, entraînant des coûts mémoire élevés.
* Les méthodes traditionnelles de quantification réduisent la taille du cache mais nécessitent le stockage de constantes de quantification (dictionnaires), similaires à ZIP/RAR.
Ces dictionnaires créent d’importants frais généraux.

Comment fonctionne TurboQuant
TurboQuant se compose de deux étapes et élimine complètement les dictionnaires.

ÉtapeCe qui est faitPourquoi c’est important
1. PolarQuantConversion des vecteurs des coordonnées cartésiennes aux coordonnées polaires (rayon + angle). Les distributions angulaires sont prévisibles et concentrées, donc aucune étape de normalisation coûteuse n’est nécessaire. Résultat : compression haute qualité sans dictionnaires.
2. Couche de correction d’erreur à 1 bitApplication de l’algorithme quantifié Johnson‑Lindenstrauss ; l’erreur résiduelle est réduite à un seul bit. Élimine la dérive systématique dans les calculs d’attention avec des coûts supplémentaires minimes.

Résultats pratiques
| Test | Algorithmes | Résultats |
|------|-------------|-----------|
| LongBench, Needle In A Haystack, ZeroSCROLLS, RULER, L‑Eval (Gemma & Mistral) | TurboQuant vs KIVI | TurboQuant : compression minimale de 6× du KV‑cache ; dans les tâches de recherche «needle in a haystack » – sans perte de précision. Sur LongBench – pas pire, parfois meilleur que KIVI. |
| Recherche vectorielle (GloVe) | TurboQuant vs Product Quantization, RabbiQ | Même sans entraînement, TurboQuant surpassait les concurrents entraînés en qualité des résultats et consommation mémoire. |

Conclusions
* TurboQuant offre une compression forte du KV‑cache à 3–4 bits sans perte de précision ni entraînement supplémentaire.
* La performance sur Nvidia H100 a augmenté 8×, et la taille du cache a diminué six fois.
* L’algorithme fonctionne aussi bien pour les grands modèles linguistiques que pour les tâches de recherche vectorielle, sans réglage fin.

Ainsi, TurboQuant est prêt à être utilisé en production même sous forte charge et ouvre de nouvelles possibilités pour une utilisation efficace des grands modèles.

Commentaires (0)

Partagez votre avis — merci de rester courtois et dans le sujet.

Pas encore de commentaires. Laissez un commentaire et partagez votre avis !

Pour laisser un commentaire, connectez-vous.

Connectez-vous pour commenter