AI Factory로 가는 고속열차, NVIDIA Blackwell GPU

AI Factory로 가는 고속열차, NVIDIA Blackwell GPU

'미래에는 데이터센터가 AI 공장이 될 것입니다.'

'TSMC는 반도체 파운드리, NVIDIA는 AI 파운드리입니다.'


지난 3월 중순에 진행된 NVIDIA GTC 2024에서 젠슨 황 CEO는 새로운 아키텍처 기반의 AI 인프라, 그 인프라에서 사전 학습되어 누구나 손쉽게 가져다 사용할 수 있는 AI 패키지, AI의 종착지인 휴머노이드 로봇 플랫폼을 소개했습니다. NVIDIA가 단순히 고성능 GPU를 제조하는 기업이 아닌, 전 세계 어느 업종에서든 활용할 수 있는 AI를 만들어내는 공장이 되겠다고 천명한 것입니다. 그리고 이러한 젠슨 황 CEO의 원대한 목표를 이루기 위한 기반이 되는 인프라가 바로 Blackwell GPU 입니다.




<이미지 출처 : 구글, 4월 3일 기준 nvidia gtc 2024 키워드로 뉴스를 검색한 결과 4,850개가 검색됨>


이번 쉐어드IT 인사이트 칼럼 작성을 위해 GTC 2024 키노트 세션은 물론이고 관련된 다양한 영상과 미디어의 기사, 기술 블로그들을 둘러봤습니다. Blackwell 정말 많은 기사들이 지금도 쏟아져 나오고 있습니다. 그만큼 GTC 2024 키노트 세션에서 발표된 것들이 많은 탓이겠죠. 그런데 문제는, 정보를 수집하려는 사람 입장에서는 너무 많은 기사와 영상과 글을 읽어야 한다는 것입니다. 하나의 기사, 하나의 글, 하나의 영상에서 종합적으로 GTC 2024에서 새롭게 발표된 핵심적인 내용들을 파악하기 어려운 것 같습니다. 그래서 이번 칼럼을 준비했습니다.


앞서 언급했듯, GTC 2024 키노트 세션에서는 크게 AI 인프라, AI 소프트웨어 생태계, 로봇 플랫폼이 소개되었습니다. 이 중에서 이번 콘텐츠에서는 AI 인프라, 새롭게 발표된 Blackwell 아키텍처에 집중하려고 합니다. 인프라가 뒷받침 되어야 그 다음 것들도 순탄하게 진행이 될 수 있을테니까요. 그리고 개발자가 아닌 이상, IT 인프라를 관리하는 담당자 분들께서 더 관심이 가는 내용은 AI 인프라에 대한 내용일 것 같습니다. 그래서 Blackwell 아키텍처에 대해 상세히 다루고, 그 다음에 NVIDIA의 AI 소프트웨어 생태계에 대해 간단히 알아보는 것으로 마무리 하겠습니다. 아젠다는 아래와 같습니다.



 아젠다

 1. GTC 2024에서 발표된 Blackwell GPU 핵심내용 정리

 2. 생성형 AI 시대에 NVIDIA의 역할이 더욱 중요해 지는 이유는?

 3결론 : AI 파운드리를 선언한 NVIDIA의 미래는?

  설문 이벤트

  • 아젠다 별 링크를 클릭하면 해당 내용의 첫 부분으로 이동합니다.

  • 마우스의 뒤로가기 버튼을 클릭하면 다시 아젠다로 돌아옵니다




이 콘텐츠는 NVIDIA 국내 총판 BayNex의 지원으로 제작되었습니다.





1. GTC 2024에서 발표된 Blackwell GPU 핵심내용 정리


  • Blackwell의 유래



<이미지 출처 : Wikipedia 검색>


NVIDIA의 GPU 아키텍처 명은 항상 유명한 과학자의 이름에서 따오는 전통이 있습니다. V100 GPU의 Volta는 18세기 ~ 19세기에 활동했던 이탈리아 태생의 물리학자 Alessandro Volta, A100 GPU의 Ampere는 마찬가지로 18세기 ~ 19세기에 활동했던 프랑스 태생의 물리 및 수학자 André-Marie Ampère, H100 GPU는 20세기에 활동했던 미국 태생의 컴퓨터 과학 및 수학자이자 미국 해병대 제독 출신인 Grace Brewster Hopper에서 가져왔습니다.


그런데 사실 V100의 Volta와 A100의 Ampere 아키텍처 명을 가져온 학자들은 수학보다는 물리학으로 좀 더 유명한 분들이었습니다. Volta는 전압을 측정하는 단위인 볼트를, Ampere는 전류를 측정하는 단위인 암페어를 의미하거든요. 하지만 H100의 Hopper 아키텍처 명을 가져온 Grace Hopper는 컴퓨터 과학자이자 수학자로 매우 유명합니다. 어렸을 때부터 수학에 관심이 많았던 Grace Hopper는 예일 대학교에서 수학 석사 및 박사 학위 취득후 세계 2차 대전 때 미군에 입대, 프로그래밍을 배우면서 컴파일러라는 개념을 최초로 정의했고, 세계 최초의 디버거로서 버그라는 개념을 창시한 분이기도 합니다. 거기에 프로그래밍 언어의 시조 격인 COBOL(코볼)을 개발했고요. 




<이미지 출처 : Illinois Math, David Blackwell(1919 - 2010)>


이번 Blackwell 아키텍처의 Blackwell은 20세기에 미국 일리노이 대학에서 게임 이론, 확률 이론 및 통계에 큰 공헌을 한 David Blackwell 이라는 수학자의 이름에서 가져왔습니다. 키노트 세션에서 젠슨 황은 Davaid Blackwell이 게임 이론에 정통했다는 것을 강조했는데요. Blackwell 아키텍처와 GPU 성능을 이야기 하면서 계속 숫자, 수학을 언급했습니다. 왜 젠슨 황 CEO가 숫자를 강조했는지 아마 키노트 세션을 보신 분들은 잘 아실겁니다. 발표 중에 숫자로 된 수치가 정말 많이 나오거든요. 


정리하면, NVIDIA는 새로운 GPU 아키텍처 명을 유명한 물리학, 수학, 컴퓨터 과학자의 이름에서 가져왔고, 이번 Blackwell 아키텍처는 Daivid Blackwell이라는 미국의 수학자 이름에서 따온 것이다 라는 것을 기억하시면 되겠습니다.



  • Blackwell 아키텍처 GPU, B200



<영상 출처 : NVIDIA Youtube, GTC March 2024 Keynote with NVIDIA CEO Jensen Huang>


이번 GTC 2024 키노트 세션에서 새롭게 발표된 아키텍처인 Blackwell은 NVIDIA GPU 최초로 MCM(Multi Chip Module ) 방식으로 제작된 칩렛(Chiplet) 구조의 칩입니다. 이전 세대인 Hopper까지는 1개의 단일 칩에 트랜지스터와 메모리를 집적한 SoC(System on Chip), 모놀리식(Monolithic) 구조였다면, 이번 Blackwell은 1,040억개의 트랜지스터를 집적한 다이(Die) 2개를 서로 연결해 하나의 칩처럼 동작하도록 패키징했습니다. 그리고 이 2개의 Die 주변에 24GB의 HBM3e 메모리를 상단에 4개, 하단에 4개, 총 8개를 장착해 메모리 용량은 192GB가 되었고요.




<이미지 출처 : ResearchGate, 2.5D chiplet integration with an interposer>


앞서 언급한 칩렛은 SoC 구조를 극복하기 위해 탄생했습니다. 반도체 생산 공정에서 중요한 것 중 하나가 수율입니다. 아마 미디어에서 TSMC, 삼성전자가 몇 나노 공정을 개발했니, 수율이 얼마니 하는 기사를 많이 접하셨을텐데요. 최신 공정을 개발했더라도 수율이 나오지 않는다면 NVIDIA나 Apple과 같은 팹리스 기업, 실제 반도체를 생산하지 않고 설계만 하는 기업들의 반도체 수급량이 줄어들어 결과적으로 그들의 제품 생산 단가도 높아지게 됩니다.


그리고 반도체를 생산하는 파운드리 업체 입장에서도 SoC 구조로 만든 칩의 성능을 높이려면 다이에 더 많은 트랜지스터를 집적해야 하는데, 이렇게 되면 다이의 크기가 커질 수 밖에 없습니다. 다이가 커지면 반도체 집적회로의 핵심 재료, 원형의 판인 웨이퍼로 만들 수 있는 칩의 수가 줄어들게 됩니다. 파운드리 업체는 더 많은 칩을 생산해야 수익이 올라가는데 SoC 구조는 성능을 높이기 위해 다이를 키울 수 밖에 없으니 수율이 낮아지고 수익성이 떨어지는 단점이 있는거죠.


하지만 칩렛은 칩의 기능들을 분리 해 더 작은 크기의 칩 조각으로 따로 만든 다음, 이것들을 나중에 하나의 패키지로 만드는 방식입니다. 하나의 큰 칩 안에서 다 박아 넣는 SoC와는 달리, 필요한 기능을 수행하는 작은 칩들을 모아 하나로 패키징하는 구조라고 보시면 됩니다. 처음부터 하나의 다이에 집적하는 것이 아닌, 미리 작은 칩들을 만들어 두고 그걸 나중에 조립한다는 후공정 개념입니다. 그래서 다이가 계속 커질 필요가 없습니다. 일정 크기의 다이에 칩렛 구조로 필요한 작은 칩들을 집적하고, 그 다이를 연결하면 되니까요. 




<이미지 출처 : NVIDIA Youtube, GTC March 2024 Keynote with NVIDIA CEO Jensen Huang>



그리고 B200은 이전 세대의 H100과 마찬가지로 SXM 폼팩터를 사용해 8개의 GPU가 하나의 보드에 장착된 HGX B200 보드로 서버 제조사들에게 제공됩니다. 그럼 서버 제조사들은 그들의 서버 폼팩터에 x86 CPU를 2개나 4개 탑재하고 이 HGX B200 보드를 추가함으로써 6U나 8U 크기의 대형 GPU 서버를 완성할 수 있게 되는거죠.


그런데 NVIDIA는 HGX B200 말고 HGX B100도 제공합니다. B100은 B200과 동일한 스펙, 즉 같은 수량의 트랜지스터와 메모리가 직접되어 있지만 전력 제한을 걸어 성능이 20% 정도 떨어지는 모델입니다. NVIDIA의 기술 문서에서 확인한 정보를 토대로 살펴보면, B200의 TDP는 1,000W이고 B100의 TDP는 700W입니다. 그리고 8개의 GPU가 HGX 보드에 장착되기에 순수 GPU TDP만 HGX B200은 8,000W, HGX B100은 5,600W에 달합니다. 여기에 x86 CPU와 시스템 메모리 및 디스크, 기타 다른 부품들까지 더해진 서버 전체의 전력 소모량은 HGX B200이 장착된 서버라면 10KW가 넘을 수도 있지 않을까 싶네요.


그리고 하나 더, HGX B100은 기존의 HGX H100이 탑재된 서버와 호환되어 서버에서 HGX H100 보드만 HGX B100 보드로 갈아끼워도 된다고 합니다. 즉, 기존에 사용하던 HGX H100 이 장착된 서버에서 GPU 외 나머지 자원을 재활용할 수 있다는 것입니다.



  • CPU 1개와 GPU 2개가 합체! GB200




<이미지 출처 : 나무위키, 퓨전(드래곤볼)>


뜬금없이 이상한 움짤이 나왔지만 당황하지 않으셨죠? 드래곤볼 후반부에 등장하는 손오천과 트랭크스의 퓨전, 그리고 그 결과로 탄생한 오천크스인데요. 드래곤볼을 읽어보신 분들이라면 잘 아실겁니다. 1 + 1 = 2가 아닌 3이 되는 마법이 드래곤볼 뿐만 아니라 NVIDIA도 나타났습니다. 그것도 2년 전에요. 




<이미지 출처 : NVIDIA, NVIDIA Grace Hopper 슈퍼칩>


2022년 3월, NVIDIA는 Hopper 아키텍처 기반의 GPU, H100을 발표하면서 또 하나의 제품을 선보였는데요. 바로 Grace Hopper 슈퍼칩, GH100입니다. GH100은 NVIDIA의 Grace CPU 다이와 Hopper GPU 다이를 하나의 기판에 집적하고 이 둘을 NVLink-C2C(Chip to Chip)으로 연결한 제품입니다. H100은 별도의 Intel 혹은 AMD의 x86 CPU가 필요하지만 GH100은 NVIDIA가 설계한 AI 작업에 최적화된 Grace CPU가 그 역할을 대신합니다. 그리고 1년 5개월 뒤, 2023년 8월에 H100에 탑재되었던 HBM3 메모리를 HBM3e로 업그레이드한 H200을 발표하고, 이 H200에 Grace CPU가 더해진 칩이 GH200입니다.



<영상 출처 : NVIDIA Youtube, GTC March 2024 Keynote with NVIDIA CEO Jensen Huang>


GH200의 기술, Grace CPU와 GPU의 합체는 고스란히 B200에도 적용되었습니다. 그래서 탄생한 것이 바로 GB200입니다. 2개의 B200과 1개의 Grace CPU가 하나로 퓨전한 슈퍼칩입니다. 이전 세대에서는 1 CPU + 1 GPU였는데 이번 세대는 1 CPU + 2 GPU가 되었네요. 그런데 B200은 GPU 다이가 2개라고 말씀드렸죠? 그래서 이전 세대와 동일 선상에서 비교하면 1 CPU + 4 GPU가 된 셈입니다. 




<이미지 출처 : NVIDIA Youtube, GTC March 2024 Keynote with NVIDIA CEO Jensen Huang>


GB200의 스펙은 위와 같습니다. 192GB의 HBM3e 메모리를 가진 B200 GPU가 2개니 메모리도 2배인 384GB가 되었고요. 72코어를 가진 Grace CPU가 B200 GPU와 NVLink-C2C로 연결되어 최대 900GB/s로 데이터를 주고 받습니다. 그래서 성능은 얼마나 향상됐냐고요? 조금만 기다려 주세요. NVIDIA가 발표한 각종 성능 지표를 모아서 한번에 보여드릴게요.



  • 더 크고 아름다운 성능이 필요해! GB200 Compute Node




<영상 출처 : NVIDIA Youtube, GTC March 2024 Keynote with NVIDIA CEO Jensen Huang>


앞서 소개해 드린 B200의 경우 HGX B200 폼팩터로 서버 제조사들에게 제공되어 그들이 가진 규격의 메인보드와 각종 부품, 그리고 케이스와 함께 랙 서버로 만들어집니다. 그런데 GB200 Compute Node는 좀 다릅니다. 노드 하나에 GB200 2개를 집적해서 성능을 끌어올렸고, 2개의 GB200이 CPU를 거치지 않고 서로 빠르게 데이터를 주고받을 수 있게하는 기술인 RDMA를 위해 업계 최고 성능의 NIC인 ConnectX-800G 인피니밴드 NIC 3개를, 그리고 Grace CPU와 Blackwell GPU가 연산에만 집중할 수 있도록 데이터 처리 및 전송만을 전담해주는 BlueField-3 DPU 1개를 추가로 장착했습니다.


※ RDMA(Remote direct memory access) : CPU를 거치지 않고 메모리 간 데이터를 전송하는 기술로 NVIDIA는 GPU Direct RDMA라는 CPU를 배제하고 스토리지와 GPU 메모리를 직접 연결해서 더욱 빠르게 데이터 전송을 가능케 하는 기술을 사용합니다.

※ DPU(Data Processing Unit) : 데이터 패킷 처리와 전송을 가속하기 위한 전용 프로세서로 CPU와 GPU가 데이터 전송에 관여하지 않고 연산에만 집중할 수 있도록 하며, NVIDIA는 인피니밴드 NIC와 DPU를 함께 활용하여 데이터를 더욱 빠르게 전송할 수 있는 환경을 구축했습니다.




<이미지 출처 : NVIDIA Youtube, GTC March 2024 Keynote with NVIDIA CEO Jensen Huang>


NVIDIA는 이렇게 제작된 GB200 Compute Node 총 18개를 하나의 랙에 장착해 GB200 NVL72라는 거대한 GPU 시스템을 만들었습니다. GB200 Compute Node 1개에 Grace CPU 2개, B200 GPU 4개가 있고, 이게 18개니 GB200 NVL72는 36개의 Grace CPU와 72개의 B200 GPU를 갖춘 엄청난 시스템이 되었습니다.


그런데 B200이 72개면 그냥 GB200 72라고 명명해도 될 것 같은데 중간에 NVL이라는 단어가 붙었습니다. NVL은 NVIDIA의 GPU를 서로 연결하기 위한 네트워크 기술인 NVLink의 약자인데요. 즉, 72개의 B200 GPU가 NVLink로 서로 연결되어 있다는 것입니다. 



  • 이렇게 많은 CPU와 GPU가 따로 놀면 안 되지! NVLink Switch System



<영상 출처 : NVIDIA Youtube, GTC March 2024 Keynote with NVIDIA CEO Jensen Huang>



<이미지 출처 : NVIDIA, NVLink 사양>


GB200 NVL72에 사용된 5세대 NVLink는 GPU와 GPU를 서로 연결하는 포트로 100GB/s의 대역폭을 갖췄으며, 이전 세대인 H100 GPU에 적용된 NVLink 4세대의 50GB/s 대비 2배나 향상됐습니다. GPU 당 최대 18개까지 연결할 수 있고, 덕분에 NVLink로 연결된 B200 GPU들은 서로간에 1.8TB/s로 데이터를 주고받을 수 있습니다.




<이미지 출처 : NVIDIA Youtube, GTC March 2024 Keynote with NVIDIA CEO Jensen Huang>


그리고 이 GPU간의 연결은 NVLink 포트를 8개를 갖춘 NVLink Switch가 담당합니다. 데이터 전송 속도 향상을 위해 2개의 NVLink Switch 전용 칩을 장착한 NVLink Switch Node는 총 14.4TB/s의 대역폭을 지원하고요.




<이미지 출처 : NVIDIA Youtube, GTC March 2024 Keynote with NVIDIA CEO Jensen Huang>


이 NVLink Switch Node가 9개가 모여 NVLink Switch System이 되었습니다. NVLink Switch Node 하나에 NVLink Switch 칩이 2개씩 있으니 총 18개의 NVLink으로 연결된 GPU 간 오로지 데이터 전송 목적으로만 작동하는 NVLink Switch 칩이 있는 거대한 네트워크 스위치 시스템인 셈입니다. 그리고 NVLink Switch Node 1개 당 8개의 포트가 있다고 말씀드렸죠? 그래서 9 x 8 = 72포트를 갖춘 NVLink Switch System이 되었습니다. 앞서 보신 GB200 NVL72의 72는 B200 GPU 72, 그리고, 이 72개의 GPU를 연결할 NVLink 포트 수 72라고 보시면 됩니다.



  • 단일 랙으로 1조 개 파라미터 LLM 추론이 가능한 멀티 GPU 시스템, GB200 NVL72



<영상 출처 : NVIDIA Youtube, GTC March 2024 Keynote with NVIDIA CEO Jensen Huang>


GB200 NVL72는 하나의 랙에 GB200 18개, 그리고 NVLink Switch 9개가 장착된 거대한 멀티 GPU 시스템입니다. 단일 랙으로 1조 개의 파라미터가 있는 LLM과 같은 생성형 AI에 딱 맞는 시스템이 탄생한 것입니다. OpenAI의 GPT-3는 175B개, 1,750억개의 파라미터를 가지고 있다고 알려져있고 GPT-4는 정확히 밝혀지지는 않았지만 GPT-3의 10배 수준인 1.8조개 라는 이야기가 있습니다. 그리고 Google Gemini는 1조개에 달하며 네이버 하이퍼클라바 X는 파라미터 수를 비공개 했지만 3~4천억개 수준으로 추정하고 있는데요.


중요한 것은 LLM의 성능, 즉 얼마나 방대한 데이터를 토대로 정확하고 자연스러운 답변을 제공해 줄 수 있느냐는 학습하는 파라미터 수에 달렸는다는 것입니다. LLM과 같은 생성형 AI 간의 경쟁이 치열해 질수록 학습해야 할 파라미터 수는 계속 증가해 나갈 것이고, 그에 따라 요구되는 GPU 컴퓨팅 자원도 더 많아지겠죠? 그래서 NVIDIA의 GB200 NVL72와 같은 대형 GPU 시스템이 더욱 주목받게 되지 않을까 싶습니다.



  • 랙을 연결해 더 큰 인프라를 만들 수 있다고? DGX GB200 SuperPOD



<영상 출처 : NVIDIA Youtube, GTC March 2024 Keynote with NVIDIA CEO Jensen Huang>


하지만 사실 몇 천억개의 파라미터도 GB200 NVL72보다 훨씬 더 낮은 GPU 시스템으로 학습할 수 있습니다. 단지 시간이 많이 걸릴 뿐이죠. 문제는, 생성형 AI의 경쟁력은 얼마나 많은 파라미터를 얼마나 빠른 시간 내에 학습하느냐에 달렸다는 것입니다. 우리 회사는 1년 걸려 학습한 결과물을 경쟁사는 1달만에 학습을 끝낸다면, 경쟁사와 경쟁 자체가 안되겠죠? 그래서 기업들이 더 거대한 GPU 인프라를 요구하는 것도 어찌보면 자연스러운 결과입니다.


NVIDIA는 이러한 수요에 대응하고자 GB200 NVL72 랙을 다수 연결해 더 큰 GPU 시스템을 구성했습니다. NVIDIA DGX SuperPod with DGX GB200 Systems인데요. GB200 NVL72 랙 8대를 네트워크로 연결한 슈퍼 컴퓨터입니다.




<이미지 출처 : NVIDIA Youtube, GTC March 2024 Keynote with NVIDIA CEO Jensen Huang>


이 연결에 동원된 제품은 두 가지로 나뉩니다. 하나는 인피니밴드로 연결하기 위한 Quantum-X800 InfiniBand Switch이고, 다른 하나는 이더넷 네트워크로 연결할 수 있는 Spectrum-X800 Ethernet Switch입니다. 스위치 대역폭은 800GB/s이며, NVLink 대역폭 900GB/s 보다 조금 낮은 수준입니다. 그래서 서로 연결한 GB200 NVL72 랙 수만큼 성능이 향상되지는 않는다는 것은 참고해 주시기 바랍니다.



  • 이렇게 많은 GPU 발열, 감당 가능? 가능! Liquid Cooling System



<영상 출처 : NVIDIA Youtube, GTC March 2024 Keynote with NVIDIA CEO Jensen Huang>


GPU 서버를 운영하는 기업의 가장 큰 고민 중 하나는 발열입니다. GPU에서 내뿜는 열이 CPU나 다른 부품들보다 월등하게 높기에, 72개의 GPU가 연결된 GB200 NVL72만 해도 엄청난 열을 뿜어냅니다. 그런데 이 랙을 또 여러개 연결한 DGX SuperPod이라면? 발열을 잡기 위한 특단의 대책이 필요할텐데요. 그래서 NVIDIA가 선택한 방식은 Liquid Cooling, 수랭 방식으로 열을 식힙니다.


일반적인 서버, 그리고 이 서버들이 모여있는 데이터센터는 공랭 방식으로 열을 식히죠. 하지만 GPU 서버, 특히 GB200 NVL72처럼 GPU 수가 엄청나게 많은 시스템이라면 기존의 공랭 방식으로는 감당하기 어렵습니다. 일반적인 공랭식 냉각은 랙당 20KW가 최대치라고 알려져 있습니다.


그런데, 앞서 B200 GPU의 TDP가 1,000W라고 말씀드렸던 것 기억하시죠? B200 GPU 8개가 장착된 HGX B200의 GPU TDP만 8,000W에 달합니다. GB200의 TDP는 2개의 B200 GPU에 Grace CPU까지 합쳐져 2,700W라고 알려져 있는데요. GB200 Compute Node 1개에 GB200이 2개 들어가니 5,400W이고 GB200 NVL72는 GB200 Compute Node가 18개니 5,400KW x 18 = 97,200W = 97.2KW입니다. 여기에 9개의 NVLink Switch Node와 다른 부품들까지 더해진 GB200 NVL72 랙 하나의 전력 소모량은 최소 100KW를 넘을 것으로 예상이 되는데요.




<이미지 출처 : NVIDIA Youtube, GTC March 2024 Keynote with NVIDIA CEO Jensen Huang>


문제는, 공랭식 냉각은 랙 당 20KW가 한계라는 것입니다. 2020년대에 들어서 랙 당 전력 밀도가 20KW 이상인 랙으로 구성된 데이터센터를 하이퍼스케일 데이터센터라고 부르는데, GB200 NVL72 랙은 이런 하이퍼스케일 데이터센터의 전랙 당 전력 밀도보다 5배나 높은 100KW이니 일반적인 데이터센터에서 활용되는 공랭식 냉각으로는 감당이 안되는 겁니다.


그래서 NVIDIA는 이미 H100 기반의 DGX SuperPod때부터 수랭식 냉각을 사용해 왔습니다. 이번 GB200 기반의 DGX SuperPod 역시 수랭식 냉각으로 총 8개의 GB200 NVL72 랙 8개로 구성된 DGX SuperPod의 열을 효율적으로 관리한다고 합니다. DGX SuperPod은 구축 비용 뿐만 아니라 이 어마어마한 수랑식 냉각 시스템의 구축 비용도 엄청날 것 같네요.





  • 32,000개 GPU로 구현한 데이터센터, 본적 있음? NVIDIA AI Factory





<영상 출처 : NVIDIA Youtube, GTC March 2024 Keynote with NVIDIA CEO Jensen Huang>


지금부터는 다소 현실감이 떨어지는 이야기가 될 수도 있을 것 같습니다. NVIDIA는 앞서 보신 GB200 기반의 DGX SuperPod을 엄청나게 많이 갖춘 데이터센터를 AI Factory라고 명명했습니다. 얼마나 거대한 규모인지는 위의 Youtube 영상을 클릭해 보시기 바랍니다.(용량이 너무 커서 GIF 파일로 올리지 못한 점 양해 바랍니다.)




<이미지 출처 : NVIDIA Youtube, GTC March 2024 Keynote with NVIDIA CEO Jensen Huang>


GTC 2024 키노트 세션에서 젠슨 황 CEO는 32,000개의 GB200 GPU로 구성된 AI Factory를 소개했습니다. 앞서 보신 GB200 NVL72 랙이 GPU가 72개이고 DGX SuperPod이 랙이 5개니까 SuperPod 하나 당 GPU가 360개네요. 360 / 32,000 = 88.9니까 약 90개 정도의 DGX SuperPod으로 구성된 데이터센터라고 보시면 되겠습니다.




<이미지 출처 : NVIDIA Youtube, GTC March 2024 Keynote with NVIDIA CEO Jensen Huang>


32,000개의 B200 GPU로 구성된 AI Factory의 성능은 645 exaFLOPS의 AI 성능, 13PB의 메모리, 58PB/s의 NVLink 대역폭, 16.4 petaFLOPS의 네트워크 컴퓨팅 성능을 발휘할 수 있다고 합니다. 숫자가 너무 커서 감이 잘 안오시죠? 네, 저도 그렇습니다. 너무 숫자가 거대하니까 다소 황당하게 느껴지기까지 합니다. 그래서 일단 이 이미지는 잊어 주시고요. 좀 더 현실적인 숫자를 보여드릴게요.





<이미지 출처 : NVIDIA Youtube, GTC March 2024 Keynote with NVIDIA CEO Jensen Huang>


NVIDIA H100 GPU 8,000개로 구성된 데이터센터는 총 15,000,000W, 15MW의 전력을 소모하며 GPT-MoE-1.8T, 1.8조개의 파라미터를 학습하는 데에 90일이 걸린다고 합니다.

※ GPT-MoE : GPT-4에 적용된 파라미터 학습 기법으로 Mixture of Experts, 다수의 전문가들이 모여 하나의 큰 목표를 달성하는 것을 의미합니다. LLM에서는 언어 모델을 담당 분야 별로 쪼개어 학습시킨 다음 이 모델들을 연결해 하나의 거대한 언어 모델을 만드는 형태로 활용되고 있습니다.




<이미지 출처 : NVIDIA Youtube, GTC March 2024 Keynote with NVIDIA CEO Jensen Huang>


그런데 이 GPT-MoE-1.8T를 90일동안 학습시키는 데에 GB200 NVL72 시스템을 동원하면 4,000,000W = 4MW의 전력을 소모하는 2,000개 GPU만 있으면 된다고 합니다. H100 기반 시스템과 비교해서 GPU 수와 전력 소모량이 거의 1/4로 줄어든 셈이죠. 만약 동일하게 8,000개의 B200 GPU 학습한다면? 90일이 아닌 23일이면 끝낼 수 있습니다.


그런데 앞서 보신 것처럼 GPU가 32,000개라면? 2조개에 가까운 파라미터를 학습하는 데에 고작 6일도 안걸리겠죠.(B200 GPU 8,000개 = 23일, B200 GPU 32,000개 = 23일의 1/4인 6일) 이 정도 규모의 GPU가 갖춰진 데이터센터라면 매일 매일 새로운 AI 모델을 학습시켜 내놓을 수 있을겁니다. 정말 AI 공장이 될 수 있겠는데요?



여기까지 Blackwell 아키텍처와 GPU에 대해 자세히 정리했고요. 아직 끝이 아닙니다. 앞서 여러번 언급했었던 성능 부분을 살펴볼 차례입니다. Blackwell 아키텍처 기반의 GPU가 이전 세대 GPU들 대비 AI 학습 및 추론, 즉 AI 성능에 있어서 얼마나 큰 성장을 이뤄냈는지 알아보겠습니다.



  • Blackwell 아키텍처 기반 GPU의 성능은 이전 세대 대비 얼마나 향상됐을까?



<데이터 출처 : NVIDIA 홈페이지 및 Blackwell 아키텍처 기술 문서 / 클릭하면 커집니다>


먼저 NVIDIA Blackwell GPU와 이전 세대 GPU들의 사양을 살펴봅시다. 빼곡한 숫자 중에서 색깔로 표기한 부분 위주로 보시면 됩니다. 메모리 유형이 H200부터 이번 GB200까지는 모두 HBM3e이고 H100은 HBM3, A100은 HBM2 입니다. H200은 H100의 메모리 강화 버전으로 보시면 되고요. FP 부동 소수점 연산과 INT 정수 연산, Tensor Flow 성능의 경우 Blackwell GPU는 Peta 단위, Hopper GPU와 Ampere GPU는 Tera 단위라는 것을 보면 얼마나 성능 차이가 큰 지 알 수 있습니다. 그리고 GPU들을 연결하는 NVLink 성능도 꽤 차이가 나는 것도 확인하실 수 있고요. 그와 동시에 전력 소모량도 엄청나게 늘었죠?


하지만 이 표로는 성능 차이가 얼마나 나는지 눈에 잘 들어오지 않습니다. 이전 세대인 A100과 H100을 Blackwell GPU들과 얼마나 성능 차이가 나는지 %로 표시하더라도 표 형태는 집중이 잘 안될겁니다. 그래서, 지금부터는 그래프 위주로 보겠습니다.




<이미지 출처 : NVIDIA, NVIDIA GB200 NVL72 웹페이지>


먼저 왼쪽 그래프부터 보시죠. 앞서 간단히 언급했던 GPT-MoE-1.8T 실시간 토큰 처리량이 H100 GPU 8개를 사용한 HGX H100보다 GB200 NVL72가 30배 더 높습니다. 사실 이건 HGX B200과 비교해야 할 것 같은데, NVIDIA의 공식 자료는 아직 공개되지 않았기에, 제가 임의로 비교해 보겠습니다.


  • GB200 NVL72의 B200 GPU는 72개 -> HGX H100 GPU 수량인 8개에 맞추기 위해 9로 나눔

  • GB200 NVL72가 기록한 초당 토큰 처리량인 116을 9로 나누면 12.9 -> HGX H100의 3.5 대비 2.7배 뛰어남


그 다음 오른쪽 그래프를 보면 학습 속도가 HGX H100 대비 GB200 NVL72가 4배 빠르다고 합니다. 학습 속도의 경우 단순 GPU 성능 외에도 영향을 줄 수 있는 변수가 워낙 많기 때문에 단순히 앞서 보신 토큰 처리량처럼 9를 나눠서 생각하면 안되고요. Hopper 아키텍처의 1세대 트랜스포머 엔진 대비 Blackwell 아키텍처에 적용된 2세대 트랜스포머 엔진의 AI 학습 성능이 크게 향상되었고, NVLink, InfiniBand 네트워킹과 같은 네트워크 성능 향상분까지 가미되어 4배의 속도 증가를 이뤄냈다고 이해하시면 되겠습니다. 




<이미지 출처 : NVIDIA, NVIDIA GB200 NVL72 웹페이지>



이번에 보실 성능은 에너지 효율입니다. H100 GPU대비 GB200 NVL72 랙이 25배나 효율이 좋다는 것인데요. 그래프가 좀 오해할 수 있게 되어있는데, H100 GPU 하나와 GB200 NVL72의 에너지 효율을 비교한게 아닙니다. 하나의 거대한 랙에 HGX H100 GPU 보드 9개를 설치해 H100 GPU 수량을 GB200 NVL72와 같은 72개로 맞췄고요. 이 HGX H100으로 구성된 랙 100개와 공랭식 냉각방식이 적용된 인프라가 GB200 NVL72 랙 8개와 수냉식 냉각방식을 적용한 인프라와 동일한 성능을 보인다고 봐야합니다.

※ 출처 : NVIDIA Blakwell Architecture Technical Brief 18페이지 Figure 7, 이 자료의 설명에는 HGX H100으로 구성된 100개의 랙에 공랭식이 적용된 인프라가 HGX B200으로 구성된 8개 랙에 공랭식이 적용된 인프라와 동일한 성능을 보인다고 하는데, 설명이 잘못된 것인지 차트의 표기가 잘못된 것인지 확인이 필요한 점 참고해 주시기 바랍니다. NVIDIA GB200 NVL72 소개 페이지의 설명은 GB200 NVL72 랙에 수냉식이 적용된 인프라가 H100 GPU가 적용된 인프라 대비 효율이 25배 좋다는 것으로 기재되어 있습니다.




<이미지 출처 : NVIDIA, NVIDIA DGX-B200 Datasheet>


다음은 DGX-SuperPod 성능 비교입니다. 이전 세대인 DGX H100보다 DGX B200이 GPT-MoE-1.8T 실시간 토큰 처리량은 15배, 그리고 학습 시간은 3배 빠르다고 합니다. NVIDIA의 설명에 따르면 좌측의 그래프의 경우 8개의 DGX H100과 1개의 DGX B200의 GPU 성능이 동일하다고 하고요.(그럼 15배가 아닌 12.5배인데 왜 15배라고 하는 것인지는 확인이 필요합니다. 다른 요인이 있을 수 있으니까요.) 우측의 그래프는 동일하게 400G InfiniBand 네트워크 상에서 DGX B200이 3배 더 빠르다고 설명하고 있는데, 아마도 트랜스포머 엔진 성능의 차이가 크게 작용하지 않았을까 싶습니다.


여기까지 GTC 2024 키노트 세션에서 새롭게 발표된 Blackwell 아키텍처 기반의 GPU에 대해 자세히 알아봤습니다. 사실 GTC 2024 키노트 세션에서 발표된 내용 중 Blackwell GPU에 대한 내용은 1/3 정도입니다. 하지만 먼저 언급된 이유가 분명 있겠죠? 이렇게 뛰어난 성능의 거대한 인프라가 있어야만 가능한 것들이 있습니다. 그 이야기를 이어서 풀어보겠습니다.








2. 생성형 AI 시대에 NVIDIA의 역할이 더욱 중요해 지는 이유는?



  • AI를 위해 요구되는 컴퓨팅 자원이 급격하게 증가하고 있다?


<이미지 출처 : NVIDIA Youtube, GTC March 2024 Keynote with NVIDIA CEO Jensen Huang>


GTC 2024 키노트 세션 초반에 젠슨 황 CEO가 화면에 띄운 차트입니다. 2012년 AlexNet이라는 딥러닝 네트워크가 발표된 후 많은 AI 모델들이 지속적으로 발표되었습니다. 그리고 그 모델들을 훈련시키기 위해 요구되는 컴퓨팅 자원도 지속적으로 증가했죠. 증가폭은 제법 완만한 편이었습니다.


그런데 2017년에 발표된 Google의 트랜스포머 모델이 판을 완전히 바꿔버렸습니다. 문장 속 단어와 같은 순차 데이터의 관계를 추적해 맥락과 의미를 학습하는 신경망 모델인 트랜스포머 모델은 자연어 처리에 최적화 된 모델인데요. 이 모델을 기반으로 GPT-1, GPT-2, 그리고 2022년 11월 세상을 놀라게 한 GPT-3 기반의 ChatGPT가 탄생했죠. 위 이미지의 녹색 그래프를 보시면 아시겠지만 트랜스포머 모델 이후로 AI 훈련에 요구되는 컴퓨팅 자원이 가파르게 증가했습니다. 즉, 컴퓨팅 자원만 받쳐준다면 AI의 성능이 폭발적으로 성장할 수 있다는 것입니다.




<NVIDIA가 2023년 말에 공개한 데이터센터 GPU 로드맵, 이미지 출처 : VideoCardz>


그래서 NVIDIA는 Ampere 아키텍처 이후 2년 텀으로 발표하려 했던 새로운 GPU 아키텍처 발표 시기를 앞당긴 것 같습니다. 작년 말에 공개된 NVIDIA의 데이터센터 GPU 로드맵을 보면 2022년 말 Hopper 아키텍처가 발표되고 2023년에 H100 GPU가 출시되었는데, 2024년 초에 Blackwell 아키텍처가 발표되고 올해 말 출시를 앞두고 있는 것을 알 수 있고요. 그리고 내년에 다시 1년만에 새로운 아키텍처를 발표할 것이라고 예고했습니다. 게다가 GPU 뿐만 아니라 다수의 GPU를 고속으로 연결할 네트워크 인프라도 2배씩 성능이 향상될 것이라고 합니다.


사실 Blackwell GPU는 이전 세대인 Hopper GPU와 동일한 4nm 공정으로 제조되었습니다. 물론 Hopper GPU의 TSMC N4 공정보다 Blackwell GPU의 TSMC N4P 공정이 6% 높은 성능을 보인다고 하는데, TSMC의 3nm 공정인 N3 최신 공정은 아닙니다. 즉, GPU 칩을 제조하는 미세 공정에 있어  변화는 없지만, GPU 다이를 2개 연결하고 GPU  병목 현상을 줄이기 위해 네트워크 단에  집중하는 것으로 이번 Blackwell 아키텍처를 설계한 것이 아닌가 하는 생각이 듭니다. 비슷한 성능을 내는 다이를 2개 집적하고, 네트워크 대역폭을 크게 향상시켜 GPU 성능을 끌어올린 것이죠.



  • AI 대중화를 위한 NVIDIA의 강력한 소프트웨어 생태계, NIM과 Omniverse



<이미지 출처 : NVIDIA Youtube, GTC March 2024 Keynote with NVIDIA CEO Jensen Huang>


앞서 보신것과 같이, GPU 기반 병렬 컴퓨팅 인프라가 계속 발전한다면 생성형 AI의 공장이 되겠다는 NVIDIA의 목표를 달성하기 위한 하드웨어 기반은 마련된 셈입니다. 그런데 하드웨어가 마련됐다 하더라도 이 하드웨어를 활용할 소프트웨어가 있어야 강력한 하드웨어가 제대로 빛을 발할겁니다. NVIDIA 입장에서도 자신들의 하드웨어를 보다 많은 기업들, 연구원들이 사용하기를 바랄테니까요. 그래서 나온 것이 NIM, Nvidia Inference Microservice라고 저는 보고 있습니다.


NIM은 NVIDIA가 자체적으로 그리고 여러 기업들과 협력해서 사전에 검증하고 훈련시킨 AI 모델을 컨테이너에 넣어 어느 인프라에서든 쉽게 가져다가 활용할 수 있는 마이크로서비스입니다. 기업들이 AI 모델을 스스로 코딩하고, 그 모델에 방대한 데이터를 집어 넣어 훈련시킬 필요 없이, 기업은 이미 NVIDIA가 만들어 놓은 다양한 업종과 분야에서 활용할 수 있는 다수의 AI 모델을 가져다가 사용하면 되는겁니다. 즉, AI 모델 개발이라는 대단히 높은 산에 손쉽게 올라갈 수 있는 케이블카를 NVIDIA가 설치해서 무료로 운영하고 있다고 봐도 되겠죠?


NIM으로 AI 기반 서비스 개발의 문턱이 낮아짐으로써 AI 개발의 대중화가 이루어진다면 무슨 일이 벌어질까요? 네, 그렇습니다. AI 모델을 학습하고 추론시킬 AI 인프라가 더 많이 필요해 질겁니다. 그 인프라를 자체 구축할 계획이라면 NVIDIA의 최신 아키텍처 기반 GPU를, 그게 아니라면 NVIDIA DGX Cloud나 CSP가 제공하는 Cloud의 GPU 자원을 활용하면 됩니다. 


CSP들도 AI 개발의 대중화에 따른 수요를 흡수하기 위해 NVIDIA로 부터 최신 GPU를 대량으로 사들일 계획이라고 하는데요. 이러한 요인 덕분에 NVIDIA의 주가는 더 올라갈 가능성이 있다고 봐도 되지 않을까요?(하지만 이건 지극히 개인적인 의견일 뿐, 투자 권유는 아닌 점 참고해 주세요. 사실 저도 아직 NVIDIA 주식 한 주도 없습니다. 투자는 개인의 몫이라는 것, 잊지 마세요!)




<이미지 출처 : NVIDIA Youtube, GTC March 2024 Keynote with NVIDIA CEO Jensen Huang>


그리고 AI의 발전은 디지털 트윈에도 긍정적인 영향을 끼칩니다. 키노트 세션 중반에 젠슨 황 CEO는 지구를 디지털 트윈하고 싶다는 목표를 이야기 했는데요. 사실적인 3D 가상 환경에서 다양한 3D 도구들로 제작한 에셋들을 가져와 마음껏 시뮬레이션할 수 있는 Omniverse라는 솔루션이 생성형 AI와 만나 더욱 발전했습니다. 이제 Omniverse 사용자들은 시뮬레이션을 위한 환경변수 값을 Omniverse에서 사용되는 고유 언어인 USD(Universal Scene Description)를 사용하지 않고 그냥 영어로, 마치 ChatGPT에 물어보듯 프롬프트에 물어보면 됩니다.


이 Omniverse는 당연히 NVIDIA GPU 인프라에서만 구동되며, NVIDIA의 GPU 인프라를 구비하지 못한 기업이라면 Microsoft Azure에서 호스팅되어 운영되는 Omniverse Cloud를 이용하면 됩니다. 기업들이 실제 제품 혹은 건축물을 제작하기 전에 Omniverse Cloud에서 먼저 가상의 환경을 구축하고 검증해 보려는 수요가 늘어난다면? Microsoft는 Azure 데이터센터에 더 많은 NVIDIA의 GPU를 설치할겁니다. 그럼 NVIDIA의 매출도 더욱 늘어나겠죠. 클라우드에서도 NVIDIA의 입지가 더욱 탄탄해 진다는 것입니다.



  • NVIDIA가 바라보는 AI 발전의 종착지, 휴머노이드 로봇


<이미지 출처 : NVIDIA Youtube, GTC March 2024 Keynote with NVIDIA CEO Jensen Huang>


만약 AI가 계속 발전해 나간다면, 그 종착지는 어디일까요? 전 인간과 닮은 휴머노이드 로봇이라고 생각합니다. NVIDIA도 AI의 미래는 로봇이라고 보고 있는 것인지는 잘 모르겠지만, 키노트 세션의 후반부는 로봇 프로젝트에 대한 내용으로 채워졌는데요. 위와 같이 AI 모델 훈련은 NVIDIA DGX 인프라에서, 가상 환경에서의 시뮬레이션 및 검증, 테스트는 NVIDIA OVX(Omniverse 기반의 디지털 트윈을 위한 인프라)에서 한 다음, 이렇게 만들어 진 결과물을 NVIDIA AGX라는 로봇에 적용되는 전용 하드웨어 플랫폼에 적용해 스스로 생각하고 행동하는 자율운영 로봇을 만들 수 있습니다.




<이미지 출처 : NVIDIA Youtube, GTC March 2024 Keynote with NVIDIA CEO Jensen Huang>


그 결과 이런게 가능해 진다는 것입니다. 키노트 세션 마지막을 장식한 이 작은 로봇은 스타워즈 시퀄 시리즈의 마스코트라고 할 수 있는 BB-8을 만들어 낸 디즈니의 작품이라고 합니다. 물론 아직 영화 속 BB-8 정도는 아니었지만 현재와 같은 발전 속도라면 그렇게 멀지 않은 시일 내에 3PO나 R2D2, BB-8과 같은 똑똑한 로봇을 볼 수 있게 되지 않을까요? 


이러한 휴머노이드 로봇의 두뇌는 생성형 AI입니다. 생성형 AI를 만들려면 거대한 컴퓨팅 자원이 필요하죠. 그리고 보다 많은 사람들이 생성형 AI를 만들고자 한다면 더 많은 컴퓨팅 자원이 필요할겁니다. NVIDIA는 이미 업계에서 가장 강력한 GPU 기반 병렬 컴퓨팅 인프라를 만들었고 계속 발전시켜 나가고 있으며, 생성형 AI 개발 대중화를 위해 NIM과 Omniverse 솔루션을, 그리고 로봇을 위한 범용 AI 모델인 GR00T Foundation Model을 제공합니다.


정리하면, AI 성능을 끌어올리고 싶어 -> 더 많은 컴퓨팅 자원이 필요해 -> 짜잔! NVIDIA가 더 뛰어난 성능의 GPU를 만들었어요! -> NIM과 Omniverse, GR00T Foundation Model로 생성형 AI 모델 개발의 저변 확대 -> 컴퓨팅 자원 수요 증가 -> NVIDIA가 더 뛰어난 GPU 인프라 개발 이라는 순환 구조가 계속 반복된다는 것입니다. 이것이 제가 생각하는, 생성형 AI 시대에 NVIDIA의 역할이 더욱 중요해 지는 이유입니다. 사실 이미 많은 분들이 이러한 이유로 NVIDIA가 앞으로도 승승장구할 것이라고 생각하고 계시지 않을까 싶긴 합니다.









3결론 : AI 파운드리를 선언한 NVIDIA의 미래는?



지금까지 살펴본 내용을 토대로 생각해보면, NVIDIA의 앞날은 여전히 장미빛인 것 같습니다. 지금이라도 NVIDIA 주식을 사야 할까요? 설마 지금이 바닥인가요? 라고 생각하시는 분들도 계시겠죠. 그런데 너무 NVIDIA가 잘나가서 NVIDIA를 시기하는 것인지, 아니면 정말 NVIDIA가 이제 슬슬 한계에 다다르고 있다고 여기는 것인지는 잘 모르겠지만, NVIDIA도 마냥 안심하고 있을 수는 없는 상황이라는 목소리도 있습니다.




<올해 초부터 자주 노출되는 NVIDIA 독점 우려 및 대안을 찾아야 한다는 기사들, 이미지 출처 : 구글 뉴스>


ChatGPT 출시 이후 생성형 AI에 대한 관심이 폭발적으로 증가하면서 NVIDIA의 데이터센터 GPU, 특히 H100의 수요가 폭증했고, AI 반도체 시장에서 NVIDIA의 점유율은 90%가 넘는 독점 체제를 공고히 다지고 있습니다. 그러면서 전 세계 시가총액 3위의 자리까지 올라왔죠. 그런데 이 구조를 깨야 한다는 목소리들이 나오기 시작한 겁니다.


'생성형 AI가 중요한 것은 인정, 그런데 꼭 NVIDIA의 GPU를 써야 해? 좀 더 생성형 AI에 최적화된 AI 전용 반도체가 더 낫지 않을까?' 라는 움직임의 일환으로 생성형 AI 훈련에 활용할 전용 반도체, NVIDIA의 대안을 찾아야 한다는 목소리가 나오고 있다는 것입니다. NVIDIA H100 GPU가 참 좋은데 너무 비싸고 공급이 원활하지 않은 것도 이러한 움직임을 뒷받침하는 주요 요인이고요.




<이미지 출처 : govindhtech, What is an NPU?NPU vs. GPU vs. CPU differences>


그래서 주목받고 있는 것이 NPU(Neural network Processing Unit), 인공 신경망 프로세싱 유닛, 통칭 AI 가속기입니다. 생성형 AI 학습쪽은 NVIDIA가 꽉 잡고 있으니, 상대적으로 적은 컴퓨팅 자원이 요구되는 AI 추론 영역에 NVIDIA GPU가 아닌 NPU를 활용하는 것이 다 낫다라는 것이 다양한 미디어를 비롯해 AI 반도체 스타트업들의 주장입니다.




<이미지 출처 : NVIDIA Youtube, GTC March 2024 Keynote with NVIDIA CEO Jensen Huang>


그런데 이 그래프를 보면, AI 추론에 집중해서 NVIDIA의 아성에 도전하려는 NPU 업체들은 아직 갈 길이 먼 것 같다고 느낄 수 있을 것 같습니다. NVIDIA는 이번 Blackwell 아키텍처를 발표하면서 FP4 연산과 GB200에 적용된 2세대 트랜스포머 엔진을 발표했는데요. 여기에 NVLink Switch까지 가세하면서 추론 성능이 엄청나게 증가했습니다. 생성형 AI의 추론 성능에서 매우 중요한 지표인 초당 토큰 생성량이 H200 FP8 성능보다 GB200 FP4 성능이 무려 30배나 더 뛰어나다고 합니다.


그렇다면 왜 갑자기 NVIDIA는 FP4를 제시한 것일까요? 2022년 9월, NVIDIA는 AI 추론에 있어 메모리 사용량을 줄이고 AI 추론에서 더 빠른 성능을 확보하기 위해 FP8을 표준으로 제안했습니다. 일반적으로 AI 학습 및 추론에 많이 활용되는 FP16보다 속도를 대폭 향상시킬 수 있다는 것이 그 이유인데요. 이번 GB200을 발표하면서 FP4도 지원한다고 발표했죠.


이렇게 FP 연산 단계가 낮아질 수록 메모리 사용량은 줄어들고 AI 추론 성능은 향상시킬 수 있지만 정확도는 그만큼 희생됩니다. 그럼에도 불구하고 NVIDIA가 FP4와 같은 낮은 단계의 FP연산을 AI 추론에 활용하려는 것은 결국 작은 규모의 AI 모델들을 위한 추론 성능 효율성까지 잡으려는 것으로 볼 수 있습니다. NPU 업체들의 공격에 충분히 대응할 수 있는 포석이라는 생각이 드는군요.




<이미지 출처 : 매일경제, 인터넷 필요 없는 손안의 비서, 2024년은 ‘온디바이스AI’ 전쟁>


NPU 말고 업계의 AI 업계의 또 다른 커다란 움직임은 온디아비스 AI입니다. 2023년 출시된 Google의 Pixel 8 Pro, 그리고 올해 초 출시된 갤럭시 S24의 AI 기능 덕분에 올해 AI 업계에 가장 큰 화두로 떠오른 것은 온디바이스 AI라고 봐도 됩니다. 게다가 이미 Intel과 AMD는 자사의 CPU에 NPU를 탑재한 새로운 프로세서를 발표하면서 노트북에서 직접 구동하는 AI를 강조하고 있죠. 이처럼 AI 모델을 별도의 데이터센터 인프라가 아닌 내가 가지고 있는 기기, 내 손안에 있는 기기에서 구동할 수 있는 온디바이스 AI가 중요해 질 것이다는 목소리가 점점 커지고 있습니다. 


그리고 이러한 온디바이스 AI를 위해서는 AI 모델의 경량화가 필수고, 이를 위한 다양한 기술들이 주목받고 있습니다. 게다가 LLM의 파라미터 수를 줄여 비용을 아끼고, 파인튜닝을 통해 성능을 끌어 올린, NVIDIA GPU 기반의 슈퍼 컴퓨팅 인프라가 없어도 되는 sLLM 역시 업계의 관심도가 점점 올라가고 있는 추세입니다.




<이미지 출처 : NVIDIA Youtube, GTC March 2024 Keynote with NVIDIA CEO Jensen Huang>


하지만, 업계의 이러한 더 효율적인 AI 반도체, 온디바이스 AI와 sLLM과 같은 생성형 AI의 경량화 추세에도 불구하고, 전 NVIDIA의 미래는 여전히 창창하다고 생각합니다. 2세대 트랜스포머 엔진과 FP4 연산 지원으로 효율적인 AI 학습 및 추론 성능을 제공할 수 있는 Blackwell 아키텍처 GPU도 있지만, 더 중요한 것은 NVIDIA가 그리는 그림의 크기가 아닐까요? 저는 NVIDIA가 매우 거대한 그림을 그리고 있다고 생각합니다.


영화에서 많이 접했듯이 미래는 결국 로봇이 대세가 될 것이고, 이 로봇의 두뇌에 해당하는 AI는 여러 분야에서 사용되는 로봇 마다 각기 다를 것입니다. NVIDIA는 로봇의 두뇌가 될 생성형 AI가 새로운 산업혁명이라고 보고 있고, 그 산업혁명의 기반을 닦을 거대한 인프라와, 그 인프라에서 많은 사람들이 물고 뜯고 씹고 즐길 수 있는 NIM이라는 AI 모델 개발의 대중화를 가져올 서비스를 발표했죠.




<Dall-E 3로 만든 미래의 로봇 공장 이미지>


이 칼럼의 첫 시작을 장식한 문장, 기억 하시나요? '미래에는 데이터센터가 AI 공장이 될 것입니다.' 'TCSM는 반도체 파운드리, NVIDIA는 AI 파운드리입니다.' 라는 문장 말입니다. GTC 2024 키노트 세션에서 등장한 가장 인상적인 문장이라고 생각하는데요. 이러한 NVIDIA 여정의 마지막 단계에는 휴머노이드 로봇이 있습니다. 거대한 AI 공장에서 끊임없이 생산되는 로봇, SF영화와 애니메이션에서나 보던 그 광경이 NVIDIA를 통해 실현 될 가능성이 점점 커져가는 것 같거든요.


물론 NVIDIA가 그 역할을 독점할 것이라고 보지는 않습니다만, NVIDIA의 한발 앞선 발걸음이 업계의 다른 기업들을 자극시키고, 함께 AI 분야를 발전시켜 나갈 것은 확실해 보입니다. 이것이 제가 NVIDIA의 앞으로의 여정을, 미래를 긍정적으로 바라보고 있는 이유입니다. 진짜 NVIDIA가 전세계 시총 1위 회사가 될 수 있을까요? 전 될 수 있다고 봅니다. 정말 그런 미래가 다가올 지, 함께 지켜보시죠.



여기까지 GTC 2024 키노트 세션의 발표 내중 중 한 축인, NVIDIA가 그리는 큰 그림의 기반이 되는 내용인 Blackwell 아키텍처와 생성형 AI 시대에 NVIDIA가 여전히 큰 영향력을 발휘하고 있고, 앞으로도 그럴 수 있는 이유에 대해 자세히 정리해 봤습니다. 


제 생각에 동의하지 않는 분들도 많을 것으로 생각됩니다. 이 칼럼의 주 목적은 흩어져 있는 Blackwell 아키텍처에 대한 정보를 한데 모아 정리해서 보여드리는 것이고, 거기에 저의 개인적인 생각을 한 스푼 얹은 것으로 봐주시면 감사하겠습니다. 









  • [베이넥스] NVIDIA DataCtr 캠페인 설문조사 


NVIDIA 국내 총판 베이넥스(BayNex)와 함께하는 이벤트 설문에 참여해 주시는 분들  추첨을 통해 50분께 스타벅스 아메리카노를 드립니다!

-기간: 2024년 4월 12일(금) ~ 4월 25일(목) 까지 
-발표: 2024년 4월 26일(금), 당첨자 개별 안내 
-문의: [email protected]








이 콘텐츠가 GTC 2024에서 새롭게 발표된 Blackwell 아키텍처에 대해 궁금하셨던 분들께 조금이나마 도움이 되었기를 바랍니다. 끝!



3개의 댓글이 있습니다.

15일 전

정보 참고하겠습니다.

Reply

댓글 남기기

댓글을 남기기 위해서는 로그인이 필요합니다.

로그인 회원가입

15일 전

정보 감사합니다.

Reply

댓글 남기기

댓글을 남기기 위해서는 로그인이 필요합니다.

로그인 회원가입

15일 전

참여합니다.

Reply

댓글 남기기

댓글을 남기기 위해서는 로그인이 필요합니다.

로그인 회원가입

댓글 남기기

댓글을 남기기 위해서는 로그인이 필요합니다.

로그인 회원가입