Google a réduit de six fois la consommation mémoire des modèles d’IA tout en conservant leur précision grâce à l’algorithme TurboQuant
Résumé
Google Research a présenté une nouvelle méthode de compression du KV‑cache des grands modèles linguistiques – TurboQuant. L’algorithme réduit la précision du cache à 3 bits (4 bits si l’on ajoute une correction d’erreurs), sans nuire à la précision des réponses et sans entraînement supplémentaire. Sur les accélérateurs Nvidia H100, TurboQuant a multiplié par 8 la performance de calcul des logits d’attention et a réduit le KV‑cache six fois.
Qu’est‑ce que le KV‑cache et pourquoi c’est important
* Le KV‑cache stocke les clés (K) et valeurs (V) obtenues lors du calcul du mécanisme d’attention.
Cela permet au modèle de ne pas recalculer ces éléments à chaque étape de génération de tokens.
* À mesure que la fenêtre contextuelle s’agrandit, le cache croît exponentiellement, entraînant des coûts mémoire élevés.
* Les méthodes traditionnelles de quantification réduisent la taille du cache mais nécessitent le stockage de constantes de quantification (dictionnaires), similaires à ZIP/RAR.
Ces dictionnaires créent d’importants frais généraux.
Comment fonctionne TurboQuant
TurboQuant se compose de deux étapes et élimine complètement les dictionnaires.
| Étape | Ce qui est fait | Pourquoi c’est important |
|---|---|---|
| 1. PolarQuant | Conversion des vecteurs des coordonnées cartésiennes aux coordonnées polaires (rayon + angle). Les distributions angulaires sont prévisibles et concentrées, donc aucune étape de normalisation coûteuse n’est nécessaire. Résultat : compression haute qualité sans dictionnaires. | |
| 2. Couche de correction d’erreur à 1 bit | Application de l’algorithme quantifié Johnson‑Lindenstrauss ; l’erreur résiduelle est réduite à un seul bit. Élimine la dérive systématique dans les calculs d’attention avec des coûts supplémentaires minimes. |
Résultats pratiques
| Test | Algorithmes | Résultats |
|------|-------------|-----------|
| LongBench, Needle In A Haystack, ZeroSCROLLS, RULER, L‑Eval (Gemma & Mistral) | TurboQuant vs KIVI | TurboQuant : compression minimale de 6× du KV‑cache ; dans les tâches de recherche «needle in a haystack » – sans perte de précision. Sur LongBench – pas pire, parfois meilleur que KIVI. |
| Recherche vectorielle (GloVe) | TurboQuant vs Product Quantization, RabbiQ | Même sans entraînement, TurboQuant surpassait les concurrents entraînés en qualité des résultats et consommation mémoire. |
Conclusions
* TurboQuant offre une compression forte du KV‑cache à 3–4 bits sans perte de précision ni entraînement supplémentaire.
* La performance sur Nvidia H100 a augmenté 8×, et la taille du cache a diminué six fois.
* L’algorithme fonctionne aussi bien pour les grands modèles linguistiques que pour les tâches de recherche vectorielle, sans réglage fin.
Ainsi, TurboQuant est prêt à être utilisé en production même sous forte charge et ouvre de nouvelles possibilités pour une utilisation efficace des grands modèles.
Commentaires (0)
Partagez votre avis — merci de rester courtois et dans le sujet.
Connectez-vous pour commenter