| Nvidia는 2026년까지 AI GPU 간 통신을 위해 빛을 사용하는 계획을 설명합니다. 실리콘 포토닉스와 공동 패키지 광학은 차세대 AI 데

2025.08.25

Nvidia는 2026년까지 AI GPU 간 통신을 위해 빛을 사용하는 계획을 설명합니다. 실리콘 포토닉스와 공동 패키지 광학은 차세대 AI 데이터 센터에 필수가 될 수 있습니다.

끊임없이 증가하는 AI GPU 클러스터 간 통신에 대한 극심한 요구는 네트워킹 계층 간 통신에 빛을 사용하는 방향으로의 전환을 가속화하고 있습니다. 올해 초 엔비디아는 차세대 랙 스케일 AI 플랫폼이 실리콘 포토닉스 인터커넥트와 공동 패키지 광학(CPO)을 사용하여 더 낮은 전력으로 더 높은 전송 속도를 제공할 것이라고 발표했습니다. 올해 핫 칩스(Hot Chips) 컨퍼런스에서 엔비디아는 차세대 퀀텀-X(Quantum-X) 및 스펙트럼-X(Spectrum-X) 포토닉스 인터커넥션 솔루션과 2026년 출시 예정일에 대한 추가 정보를 공개했습니다.

엔비디아의 로드맵은 3단계로 진행되는 TSMC의 COUPE 로드맵을 밀접하게 따를 것으로 예상됩니다. 1세대는 OSFP 커넥터용 광학 엔진으로, 전력 소비를 줄이면서 1.6Tb/s의 데이터 전송 속도를 제공합니다. 2세대는 CoWoS 패키징으로 전환되어 광학 부품이 함께 패키징되어 마더보드 수준에서 6.4Tb/s의 속도를 구현합니다. 3세대는 프로세서 패키지 내에서 12.8Tb/s의 속도를 목표로 하며, 전력 소모와 지연 시간을 더욱 줄이는 것을 목표로 합니다.

왜 CPO인가?

대규모 AI 클러스터에서는 수천 개의 GPU가 하나의 시스템처럼 동작해야 하므로, 이러한 프로세서를 상호 연결하는 방식에 어려움이 따릅니다. 각 랙에 짧은 구리 케이블로 연결된 자체 Tier-1(Top-of-Rack) 스위치를 두는 대신, 스위치를 행의 끝으로 이동하여 여러 랙에 걸쳐 일관되고 지연 시간이 짧은 패브릭을 구축합니다. 이러한 재배치로 인해 서버와 첫 번째 스위치 간의 거리가 크게 늘어나 800Gb/s와 같은 속도에서는 구리 케이블을 사용할 수 없게 됩니다. 따라서 거의 모든 서버-스위치 및 스위치-스위치 연결에 광 연결이 필요합니다.

3adb73cd8fa9bbc5e7a3609dab9b8ebcf1679843.png
이러한 환경에서 플러그형 광 모듈을 사용하면 명확한 한계가 발생합니다. 이러한 설계의 데이터 신호는 ASIC을 벗어나 보드와 커넥터를 거쳐 빛으로 변환됩니다. 이 방식은 200Gb/s 채널에서 최대 약 22데시벨에 달하는 심각한 전기 손실을 발생시키며, 이를 보상하기 위해 복잡한 처리 과정이 필요하고 포트당 전력 소비량이 30W로 증가합니다. (이로 인해 추가 냉각이 필요하고 잠재적인 고장 지점이 발생합니다.) 엔비디아에 따르면, AI 구축 규모가 커짐에 따라 이러한 전력 손실은 거의 감당할 수 없는 수준이 됩니다.

CPO는 스위치 ASIC 옆에 광 변환 엔진을 내장함으로써 기존 플러그형 광 모듈의 단점을 보완합니다. 긴 전기 배선을 통과하는 대신 신호가 거의 즉시 광섬유에 결합됩니다. 결과적으로 전기 손실은 4데시벨로 줄어들고 포트당 전력 소비는 9W로 감소합니다. 이러한 레이아웃은 고장 발생 가능성이 있는 수많은 부품을 제거하고 광 상호 연결 구현을 크게 간소화합니다.

642d5ee83a2f64f5725e4f3509c5d1fccd0854ef.png

엔비디아는 기존의 플러그형 트랜시버에서 벗어나 광 엔진을 스위치 실리콘에 직접 통합함으로써(TSMC의 COUPE 플랫폼 덕분에) 효율성, 안정성 및 확장성 측면에서 상당한 향상을 달성했다고 주장합니다. 엔비디아에 따르면 플러그형 모듈 대비 CPO의 성능 향상은 획기적입니다. 전력 효율은 3.5배, 신호 무결성은 64배, 활성 장치 수 감소로 인한 복원력은 10배 향상되었으며, 서비스 및 조립이 간소화되어 구축 속도가 약 30% 빨라졌습니다.

이더넷 및 InfiniBand용 CPO

엔비디아는 이더넷 및 인피니밴드 기술 모두를 위한 CPO 기반 광 상호 연결 플랫폼을 선보일 예정입니다. 먼저, 엔비디아는 2026년 초에 Quantum-X 인피니밴드 스위치를 출시할 계획입니다. 각 스위치는 115Tb/s의 처리량을 제공하며, 각각 800Gb/s로 작동하는 144개의 포트를 지원합니다. 또한, 이 시스템은 14.4TFLOPS의 네트워크 내 처리 성능을 갖춘 ASIC을 통합하고 엔비디아의 4세대 확장 가능 계층적 집계 감소 프로토콜(SHARP)을 지원하여 공동 작업의 지연 시간을 단축합니다. 이 스위치는 수냉 방식으로 구동됩니다.

6c89b2b95f7a730937673a8f1c065f21ff8de86a.jpg
c122c95bf0fab6406c6062371db150050391058c.jpg

이와 동시에 엔비디아는 2026년 하반기에 Spectrum-X Photonics 플랫폼을 통해 CPO를 이더넷에 도입할 예정입니다. 이 플랫폼은 Spectrum-6 ASIC을 기반으로 두 가지 장치를 구동합니다. SN6810은 800Gb/s에서 128개 포트로 102.4Tb/s의 대역폭을 제공하고, SN6800은 동일한 속도로 409.6Tb/s의 대역폭과 512개 포트까지 확장 가능합니다. 두 제품 모두 수냉 방식을 사용합니다.

엔비디아는 자사의 CPO 기반 스위치가 점점 더 크고 정교해지는 생성적 AI 애플리케이션을 위한 새로운 AI 클러스터를 구동할 것으로 예상합니다. CPO를 사용하면 이러한 클러스터는 수천 개의 개별 구성 요소를 제거하여 설치 속도를 높이고, 서비스를 용이하게 하며, 연결당 전력 소비를 줄일 수 있습니다. 결과적으로 Quantum-X InfiniBand와 Spectrum-X Photonics를 사용하는 클러스터는 켜기 시간(Time-to-turn-on), 첫 토큰 생성 시간(Time-to-first-token), 장기 안정성 등의 지표에서 향상된 성능을 제공합니다.

엔비디아는 공동 패키징된 광학 기술이 선택 사항이 아니라 미래 AI 데이터 센터의 구조적 필수 요소라고 강조합니다. 이는 엔비디아가 AMD와 같은 경쟁사의 랙 스케일 AI 솔루션 대비 자사의 광학 인터커넥트를 핵심 장점으로 내세울 것임을 시사합니다. AMD가 에노세미를 인수한 것도 바로 이러한 이유 때문입니다 .

앞으로의 길

엔비디아의 실리콘 포토닉스 이니셔티브에서 주목해야 할 중요한 점은 이 이니셔티브의 발전이 향후 몇 년 안에 발전할 TSMC의 COUPE(Compact Universal Photonic Engine) 플랫폼의 발전과 긴밀히 연계되어 있다는 점입니다. TSMC의 1세대 COUPE는 TSMC의 SoIC-X 패키징 기술을 사용하여 65nm 전자 집적 회로(EIC)와 광자 집적 회로(PIC)를 적층하여 제작되었습니다.

TSMC의 COUPE 로드맵은 3단계로 진행됩니다. 1세대는 OSFP 커넥터용 광학 엔진으로, 전력 소비를 줄이면서 1.6Tb/s의 데이터 전송 속도를 제공합니다. 2세대는 CoWoS 패키징으로 전환하여 광학 부품을 함께 패키징하여 마더보드 수준에서 6.4Tb/s의 속도를 구현합니다. 3세대는 프로세서 패키지 내에서 12.8Tb/s의 속도를 목표로 하며, 전력 소모와 지연 시간을 더욱 줄이는 것을 목표로 합니다.

출처:Nvidia는 2026년까지 AI GPU 간 통신을 위해 빛을 사용하는 계획을 설명합니다. 실리콘 포토닉스와 공동 패키지 광학은 차세대 AI 데 > 뉴스/신제품 | 쿨엔조이