Nvidia a lancé le puce Groq 3 LPU, qui accélère l’inférence des modèles d’IA jusqu’au niveau des jetons.

Nvidia dévoile de nouvelles possibilités pour la plateforme Vera Rubin

Lors de la conférence GTC de cette année, le PDG de Nvidia, Jensen Huang, a annoncé l’expansion de la plateforme Vera Rubin. Les nouvelles fonctionnalités reposent sur la propriété intellectuelle acquise auprès de Groq, et le chip *Groq 3 LPU* – un accélérateur d’inférence conçu pour délivrer des tokens à haute vitesse et faible latence – est désormais intégré à Rubin.

Ce qui existe déjà dans Vera Rubin
La plateforme se compose de six composants clés que Nvidia assemble en systèmes de rack et les évolue vers de grandes usines IA :

Composant	Description
GPU Rubin	Carte graphique avec 288 GB HBM4
CPU Vera	Processeur central
NVLink 6	Système d’interconnexion intra-système
ConnectX‑9	Adaptateur réseau intelligent
BlueField‑4	Processeur de traitement des données
Spectrum‑X	Commutateur d’échelle inter-système avec optique intégrée

Le Groq 3 LPU est désormais ajouté comme nouveau bloc de construction, utilisé lors du déploiement de grands systèmes.

Pourquoi le Groq 3 LPU se démarque
La principale différence réside dans l’architecture mémoire. Alors que la plupart des accélérateurs utilisent HBM comme mémoire de travail, chaque Groq 3 LPU contient 500 MB SRAM. Comparaison :

Paramètre	GPU Rubin (HBM4)	Groq 3 LPU (SRAM)
Capacité	288 GB	0,5 GB
Bande passante	~22 TB/s	jusqu’à 150 TB/s

Pour les tâches d’inférence sensibles à la bande passante, l’avantage de la SRAM est évident. C’est pourquoi Nvidia a intégré le Groq 3 dans Rubin – afin d’accroître la vitesse de délivrance des tokens.

Rack Groq 3 LPX
Le rack contient 256 chips Groq 3 LPU, ce qui donne :

- 128 GB SRAM
- 40 PB/s de bande passante totale
- 640 TB/s d’interface intra-système

Le vice-président des solutions hyper-scalables, Ian Buck, a qualifié ce rack de coprocesseur pour Rubin, soulignant son rôle dans l’amélioration des performances de décodage à chaque couche du modèle et token.

Impact sur les systèmes multi-agents
Buck a noté que le Groq 3 LPX sera un élément clé pour le futur marché IA – les systèmes multi-agents. Lorsque les agents échangent directement des données, plutôt que via des chatbots, les exigences de réponse changent : de 100 tokens/s à plus de 1 500+ tokens/s et au-delà.

Concurrents et perspectives
Le texte mentionne un concurrent – Cerebras, qui utilise le Wafer‑Scale Engine (WSE) avec une énorme SRAM pour l’inférence à faible latence. OpenAI a déjà intégré Cerebras dans ses modèles avancés grâce à sa latence avantageuse.

Buck a également souligné que l’apparition du Groq 3 LPU pourrait réduire la dépendance vis-à-vis de l’accélérateur Rubin CPX. Tant que Nvidia se concentre sur l’intégration du rack Groq 3 LPX avec la plateforme, les deux chips sont destinés à renforcer l’inférence sans nécessiter d’énormes volumes de mémoire GDDR7.

Conclusion :

Le nouveau chip Groq 3 LPU et son rack LPX renforcent Vera Rubin dans le segment de l’inférence à faible latence, ouvrant la voie à des systèmes IA multi-agents plus rapides et concurrençant des acteurs tels que Cerebras.

Nvidia a lancé le puce Groq 3 LPU, qui accélère l’inférence des modèles d’IA jusqu’au niveau des jetons.

Related news

Google Gemini a atteint 750 millions d’utilisateurs actifs mensuels, laissant ChatGPT à seulement une courte distance du leader.

Nothing a présenté une version bêta d'Essential Apps – la plateforme de création d'applications miniatures grâce à l'intelligence artificielle

Microsoft a expliqué pourquoi les comptes VeraCrypt et d’autres services publics sont bloqués : faute de prudence de leurs créateurs.

L'application Meta✴ AI a terminé cinquième place dans l'App Store après le lancement de Muse Spark

Commentaires (0)

Connectez-vous pour commenter

Nvidia a lancé le puce Groq 3 LPU, qui accélère l’inférence des modèles d’IA jusqu’au niveau des jetons.

Related news

Google Gemini a atteint 750 millions d’utilisateurs actifs mensuels, laissant ChatGPT à seulement une courte distance du leader.

Nothing a présenté une version bêta d'Essential Apps – la plateforme de création d'applications miniatures grâce à l'intelligence artificielle

Microsoft a expliqué pourquoi les comptes VeraCrypt et d’autres services publics sont bloqués : faute de prudence de leurs créateurs.

L'application Meta✴ AI a terminé cinquième place dans l'App Store après le lancement de Muse Spark

Connectez-vous pour commenter

Nvidia a lancé le puce Groq 3 LPU, qui accélère l’inférence des modèles d’IA jusqu’au niveau des jetons.

Google Gemini a atteint 750 millions d’utilisateurs actifs mensuels, laissant ChatGPT à seulement une courte distance du leader.

Nothing a présenté une version bêta d'Essential Apps – la plateforme de création d'applications miniatures grâce à l'intelligence artificielle

Microsoft a expliqué pourquoi les comptes VeraCrypt et d’autres services publics sont bloqués : faute de prudence de leurs créateurs.

L'application Meta✴ AI a terminé cinquième place dans l'App Store après le lancement de Muse Spark