“1000 milliards de dollars de commandes” : Nvidia explose les records en surfant sur la vague de l’IA agentique grâce à sa nouvelle architecture désagrégée

Publié le 17 mars 2026

Qui pourra arrêter la domination de Nvidia sur le marché des centres de calcul pour l’intelligence artificielle ? A priori personne, du moins dans les années à venir. Qu’on parle de microarchitectures de puces, de racks, de la conception des systèmes, des logiciels d’orchestration, et même de la gestion énergétique des supercalculateurs, Nvidia fait toujours plus fort, plus grand, plus vite. Un tour de force.

Jensen Huang, CEO de Nvidia, à la GTC 2026

Julien Bergounhoux

Jensen Huang, le maître du monde (de l’IA)

L’année dernière, Nvidia annonçait 500 milliards de commandes enregistrées jusqu’en 2026. En cette année qui marque le 20e anniversaire de CUDA, il revoit ce chiffre à la hausse avec plus de 1000 milliards de dollars d’engagements d’ici à fin 2027. Et tout ne va pas qu’aux hyperscalers, avec 40% d’autres acteurs. Si d’aucun pinailleront sur les détails des rapports financiers de l’entreprise, il est indéniable qu’elle surfe tout en haut de la vague de l’intelligence artificielle.

Mais rester leader d’un secteur qui évolue aussi vite que celui de l’IA implique d’anticiper les tendances et développements technologiques plusieurs années à l’avance. C’est pourquoi, en réponse au volume croissant de calcul d’inférence que nécessite l’exploitation à grande échelle des grands modèles de langage (par rapport à l’entraînement desdits modèles qui était dominant ces dernières années), Nvidia lance des systèmes “ultra premium” à l’architecture complètement repensée.

Ils s’appuient sur des racks dédiés à certains types de calcul, en plus du stockage et du réseau, dont un rack de CPU Vera et un rack d’accélérateur Groq 3 pour l’inférence. Nvidia parle d’architecture désagrégée.

Un rack de CPU Vera pour répondre aux besoins de l’agentique

Le besoin en puissance de calcul a été multiplié par un million entre 2023 et 2025, d’après Jensen Huang, le patron de Nvidia. Et l’essor des agents IA va causer une autre explosion des besoins en calcul, car ils agiront de façon autonome et interagiront entre eux.

Or, l’agentique et l’apprentissage par renforcement sollicitent fortement le CPU. Ca tombe bien car Nvidia met en avant son nouveau processeur Vera à 88 coeurs Olympus (conçus en interne sur base Arm), qui est accompagné de 1,5 To de mémoire LDDPR5X avec jusqu’à 1,2 To/s de bande passante. Il permet d’après lui 1,5 fois plus de performance par sandbox comparé à l’architecture x86, 3 fois plus de bande passante mémoire par coeur, et 2 fois plus d’efficacité énergétique en single threading.

Nvidia GTC 2026 - Vera CPU tray — Nvidia GTC 2026 – Vera CPU tray

On connaissait déjà ce CPU car il doit fonctionner avec le GPU Rubin en formant une “super puce”, notamment au sein des racks Vera Rubin NVL72 sur lesquels Nvidia avait mis l’accent au CES 2026. La nouveauté c’est que Nvidia le proposera aussi dans un rack CPU dédié, qui contiendra 256 CPU Vera, jusqu’à 400 To de LPDDR5X avec 300 To/s de bande passante, et 64 DPU BlueField-4 pour gérer les données. De quoi gérer 45 056 threads, rien que ça, évidemment avec refroidissement liquide.

Avec ce rack, Nvidia vante des performances doublées par rapport à son précédent CPU Grace pour les calculs liés à l’agentique. Il sera disponible auprès de ses partenaires habituels : Lenovo, HPE, Dell, Supermicro et de nombreux autres. Du côté des opérateurs de cloud, Meta, Oracle, CoreWeave et Alibaba se sont aussi d’ores et déjà engagés à en déployer.

Un nouvel accélérateur provenant de Groq

Nvidia a aussi profité de la GTC 2026 pour annoncer le nouvel accélérateur de Groq. Présenté comme Nvidia Groq 3, ce “Language Processing Unit” (LPU) fonctionnera en complément des systèmes Vera Rubin. Jensen Huang le décrit comme une “septième puce” qui rejoint les six processeurs du système Rubin NVL72 : le CPU Vera, le GPU Rubin, le DPU Bluefield-4, et les solutions de connectivité NVLink 6, ConnectX-9 et Spectrum-6.

Nvidia GTC 2026 keynote - Groq 3 vs Inference — Nvidia GTC 2026 keynote – Groq 3 vs Inference

Cette sortie fait suite à l’opération menée fin décembre lors de laquelle Nvidia a acheté les droits d’utilisation de la technologie de Groq et recruté ses dirigeants, dont son fondateur Jonathan Ross. Ce type d’opération s’est imposé ces dernières années comme alternative au rachat car il permet d’éviter les contrôles réglementaires. Il laisse derrière une structure plus ou moins évidée. Il ne fait aucun doute aujourd’hui que le futur de Groq passera par Nvidia.

L’alliance redoutable de Groq 3 et Vera Rubin

L’accélérateur Groq LP30 (son “vrai” nom) dispose de 500 Mo de SRAM, contre 230 Mo pour sa première génération (la seconde n’a jamais vu le jour). Rien à voir avec les 288 Go de HBM4 d’un GPU Rubin, mais la SRAM est sept fois plus rapide avec 150 To/s de bande passante contre 22 To/s.

Tout l’intérêt des LPU réside dans cette rapidité à générer les premiers tokens, mais ils sont limités en matière de débit (1,2 PFLOPS en FP8 contre 50 PFLOPS en NVFP4 pour Rubin), ce qui les rend difficile utilisable pour gérer de gros volumes. C’est pourquoi la start-up n’était pas capable de prendre de vraies parts de marché à Nvidia avec sa technologie, car faire tourner même un LLM de taille moyenne nécessitait un très grand nombre de puces.

Rubin, à l’inverse, a un grand débit de tokens mais avec une latence plus élevée. Combiner les deux offre un scénario idéal, et à moindre coût qu’en ne s’appuyant que sur une seule approche, selon Nvidia. Ses GPU AI repoussent en effet les limites de la fabrication de puces à la fois en matière de taille (avec 336 milliards de transistors) et de complexité, le tout en utilisant les derniers processus de gravure de TSMC. C’est ce qui les rend si rares et coûteux.

Groq 3 de son côté ne totalise “que” 98 milliards de transistors et n’a pas la même complexité de fabrication. Elle est d’ailleurs produite par Samsung avec son processus LP4X, un autre avantage étant donné les contraintes d’approvisionnement de TSMC, producteur exclusif des GPU de Nvidia.

Un rack d’accélérateur Groq pour les usages “ultra premium”

Nvidia avait déjà annoncé au CES que son rack Vera Rubin NVL72 fournirait des performances dix fois plus élevées que Blackwell pour l’inférence. Celles-ci vont encore augmenter grâce à l’adjonction d’un rack LPU dédié. Baptisé Nvidia Groq 3 LPX, il est constitué de 256 LPU, 128 Go de SRAM avec une bande passante mémoire de 40 petaoctets par seconde, et fournit une performance de 315 PFLOPS. Le tout est contrôlé par un FPGA et relié aux autres parties du système par Ethernet.

Nvidia GTC 2026, performance ultra premium

Le rack LPX doit fonctionner en complément du NVL72 pour fournir un débit 35 fois plus important pour un modèle de type GPT avec 1000 milliards de paramètres et une fenêtre contextuelle de 400 000 tokens. Nvidia présente cette combinaison comme essentielle pour adresser les besoins les plus exigeants en matière d’agentique à grande échelle, et il destine expressément ces systèmes “ultra premium” aux développeurs de modèles d’IA. Comprendre OpenAI, Anthropic ou Meta, par exemple.

Ils peuvent fournir jusqu’à 1000 tokens par seconde, mais cela a un coût… de l’ordre de 150 dollars par million de tokens. La commercialisation du rack Groq 3 LPX est prévue pour le second semestre 2026, comme pour le rack Vera.

Et Rubin CPX dans tout ça ?

Il faut noter que Nvidia voulait déjà optimiser sa plateforme Vera Rubin pour l’inférence l’année dernière en y ajoutant un GPU dédié, baptisé Rubin CPX, pensé pour augmenter le débit lors de la phase contextuelle de l’inférence (le “prefill”), c’est-à-dire lorsque le modèle lit et encode les informations qu’on lui a fournit en tokens (créant le contexte) avant de produire un résultat.

Ce GPU spécial n’est doté que de 128 Go de mémoire GDDR7, ce qui le rend beaucoup moins cher à produire qu’un Rubin classique. La bande passante de la GDDR7 est moins rapide que celle de la HBM4, mais cela suffit pour cette phase du calcul. Le GPU Rubin et ses 288 Go de HBM4 peut alors être utilisé pour la phase suivante : la génération des tokens de sortie à partir du contexte.

L’utilisation d’agents pour des tâches complexes nécessite des contextes de plus en plus larges et qu’il faut conserver en mémoire de plus en plus longtemps, et Rubin CPX a été pensé pour répondre à cette problématique. Il est proposé au sein du système Rubin NVL144 CPX.

Les LPU de Groq viennent a priori compléter ce tableau, car ils accélèrent la phase de décodage sur laquelle intervient les GPU Rubin standard, c’est-à-dire la génération de tokens de sortie. Leur articulation potentielle avec Rubin CPX n’a cependant pas été évoquée lors de la keynote, et Ian Buck, VP of Hyperscale & HPC, n’a pas répondu à la question lorsqu’elle lui a été posée lors d’un briefing, indiquant seulement que Nvidia se concentre sur l’intégration des LPU Groq à sa plateforme.

Disponibilité de Dynamo 1.0 et future compatibilité Groq

Rubin CPX a-t-il été rélégué au second plan pour prioriser l’intégration des LPU ou va-t-il être tout simplement abandonné ? Difficile à dire à ce stade. Pour gérer le découpage automatique des modèles (sans qu’ils aient à être complètement reconstruits pour cette approche), Nvidia a créé un logiciel d’orchestration appelé Dynamo. Présenté à l’origine avec Rubin CPX, sa version 1.0 est désormais disponible en open source et sera mise à profit pour gérer l’orchestration des tâches entre les GPU Rubin et les LPU Groq.

Nvidia GTC 2026 keynote - GPU et LPU — Nvidia GTC 2026 keynote – GPU et LPU

Un nouveau reference design pour les racks de stockage

Deux derniers racks viennent compléter le tableau en plus de Vera, LPX et du NVL72. Le premier est dédié au stockage et se nomme BlueField-4 SPX. Nvidia ne le commercialisera pas directement, il s’agit d’un design de référence que ses partenaires fabriqueront (et peu importe les designs qu’ils avaient envisagés eux-mêmes). Ils sont tous au rendez-vous : NetApp, HPE, Hitachi Vantara, Nutanix, IBM, DDN, Vast, etc.

Nvidia promet quatre fois plus de performances par watt et la capacité de fournir cinq fois plus de tokens par seconde grâce à ce système, qui est aussi accompagné d’un nouveau framework baptisé Doca Memos. De quoi adresser un besoin en données qui atteindra d’après lui 500 zettaoctets d’ici 2029 (1 Zo est égal à un milliard de téraoctets), avec des requêtes à 6000 tokens par prompt. En attendant, il a convaincu la start-up française Mistral AI, qui en a vanté les mérites.

Pour la partie réseau, Nvidia présente un rack Ethernet Spectrum-6 SPX qui tire partie de ses innovations en matière de photonique. Clou du spectacle, la plateforme logicielle Nvidia DSX est censée permettre d’installer 30% de serveurs en plus dans un même centre de calcul (à capacité énergétique équivalente) en optimisant les performances énergétiques de façon dynamique grâce à un jumeau numérique qui opère toute la structure. Là encore, Nvidia est partenaire de pratiquement toute l’industrie, qu’il s’agisse de Schneider Electric, Dassault Systèmes, Siemens, Hitachi ou de dizaines d’autres.

Nvidia voit toujours plus grand avec ses prochains systèmes Feynman

Pour terminer, Nvidia a teasé ses prochaines puces, à commencer par le GPU Rubin Ultra HBM4e, qui sera accompagné d’une puce Groq LP35 gérant la précision NVFP4. Viendra ensuite l’architecture Feynman, qui doit sortir en 2028.

Nvidia GTC 2026 keynote - Future roadmap — Nvidia GTC 2026 keynote – Future roadmap

Le GPU Feynman utilisera une technologie de die stacking et une mémoire HBM customisée. La génération de CPU après Vera s’appellera Rosa, abbréviation de Roseline. Rosa Feynman sera accompagné des Groq LP40, BlueField-5, NVLink-8 CPO, et de Spectrum-7 204T CPO et CX10.

Du côté des racks, Oberon évoluera avec une version ETL256 en plus du NVL72, et la génération suivante, nommée Kyber, sera proposée en NVL144 et NVL1152. Bon courage aux compétiteurs.

La source:“1000 milliards de dollars de commandes” : Nvidia explose les records en surfant sur la vague de l’IA agentique grâce à sa nouvelle architecture désagrégée