Colossus : le supercalculateur d’Elon Musk avec 100 000 GPU NVIDIA a plus d’un atout dans son sac

31 octobre 2024

Musk semble nourrir des ambitions plutôt démesurées pour son entreprise dédiée à l’intelligence artificielle, xAI. Le supercalculateur développé par cette dernière s’annonce particulièrement monstrueux et porte bien son nom : Colossus.

L’informatique haute performance vient d’accueillir un nouveau géant. En effet, ce supercalculateur d’xAi ne se distingue pas uniquement par ses 100 000 GPU fondés sur l’architecture Hopper de NVIDIA (ceux initialement destinés à Tesla ?). Sa véritable innovation réside dans son architecture réseau, qui propose une approche complètement différente des standards actuels, marquant ainsi un virage serré dans la conception des infrastructures de High Performance Computing (Calcul Haute Performance).

Dans les entrailles de Colossus : Spectrum-X

En s’écartant résolument d’InfiniBand – technologie acquise par NVIDIA en 2019 lors du rachat de Mellanox, son dernier fournisseur indépendant – les architectes de Colossus ont pris un parti assez unique. Leur choix s’est porté sur Spectrum-X, une plateforme réseau NVIDIA qui répondra de manière optimale à leurs besoins en matière de calcul intensif.

Cette solution s’appuie sur des composants Ethernet optimisés, capables d’atteindre un débit de données remarquable de 95 %, là où les solutions conventionnelles peinent à dépasser 60 %. L’innovation s’articule autour du commutateur Spectrum SN5600, un commutateur réseau haut de gamme apte à encaisser 800 Gb/s et par port. Ce dernier, construit autour d’un processeur spécialisé Spectrum-4, travaille en tandem avec les cartes réseau BlueField-3 SuperNIC, fabriquées aussi par NVIDIA, pour maximiser l’efficacité des échanges entre processeurs graphiques.

 L'objectif de Grok est de devenir une IA aussi intelligente et utile que possible, tout en restant alignée sur les valeurs de X et de ses utilisateurs. © lilgrapher / Shutterstock
L’objectif de Grok est de devenir une IA aussi intelligente et utile que possible, tout en restant alignée sur les valeurs de X et de ses utilisateurs. © lilgrapher / Shutterstock

Un mastodonte en pleine croissance

Grâce à la plateforme Spectrum-X, les équipes de xAI ont réussi à concevoir Colossus en un temps record et ils ne comptent pas s’arrêter là. Les ingénieurs s’attellent déjà au doublement de la puissance de calcul avec l’installation prévue de 100 000 GPU Hopper supplémentaires.

Une amplification qui vise à soutenir l’entraînement des modèles de langage de la famille Grok (qui peuvent désormais reconnaître les images), de plus en plus demandeurs en puissance computationnelle. L’architecture retenue élimine par conséquent les pertes de données liées aux collisions réseau (lorsque plusieurs paquets de données tentent d’accéder au même endroit du réseau simultanément), garantissant ainsi une latence minimale : deux paramètres essentiels pour l’efficacité du système dans son ensemble.

L’architecture singulière de Colossus est un véritable bond en avant : la construction de supercalculateurs, en tout cas chez xAI, n’est plus tributaire des solutions conventionnelles. Cette émancipation technique, associée à la diversification des fournisseurs possibles, esquisse ainsi de nouvelles perspectives pour l’industrie du calcul haute performance. Les autres géants de la tech vont aussi devoir sortir leurs grosses calculettes pour rester dans la course… et vite !

La source:Colossus : le supercalculateur d’Elon Musk avec 100 000 GPU NVIDIA a plus d’un atout dans son sac