이제 막 AI 개발을 시작하는 회사라면 L40S가 딱이에요!

2024.04.04 관리자 (쉐어드아이티) 20개의 댓글

GPU Technology Conference, GTC 2024가 지난 3월 17일부터 21일까지 미국에서 열렸습니다. AI 붐으로 전 세계 시가총액 3위에 등극한 NVIDIA 주최의 행사이기에 젠슨 황 CEO의 키노트 세션에 이목이 쏠렸는데요. 생방송이 아닌 다시보기 영상으로 본 제 소감은 다른 많은 분들과 크게 다르지 않습니다. 'NVIDIA가 진짜 시총 1위 되는거 아냐?' 라는 생각이 좀 더 명확해졌죠. 그래서 지금이라도 늦었지만 NVIDIA 주식을 사야 하나 고민이 됩니다.

하지만, 다른 생각도 들었습니다. 키노트 세션을 천천히 곱씹어 보면서 드는 생각은, 지금 제가 하는 일이 좀 하찮게 여겨지는 것 같다는 것이었습니다. '젠슨 황 CEO는, NVIDIA는 저렇게 대단한, 엄청난 일을 하고 있는데, 지금 내가 이렇게 글을 쓰고 있는 것이 무슨 의미가 있을까? 어차피 곧 나올 AI 모델이 기가 막히게 요약해 줄 텐데...' 라는 생각이 머릿속에서 떠나질 않았습니다. 그래서 다른 인사이트 칼럼과는 다르게, 글을 쓰기 위해 키보드에 손을 올리기까지 훨씬 더 오랜 시간이 걸린 것 같습니다.

<이미지 출처 : NVIDIA Youtube, GTC March 2024 Keynote with NVIDIA CEO Jensen Huang>

마치 로봇을 흉내내고 싶어 로봇의 탈을 뒤집어 쓴 이 아이는, 언젠가 미래에 정말 자신과 똑같이 행동하는 로봇이 나타나리라고 상상을 했겠죠? 하지만 '과연 내가 살아있을 때 그 모습을 볼 수 있을까?' 하는 심정은 가지고 있었을 겁니다. 그렇습니다. AI 연구는 결국 사람처럼 생각하고 행동하는 로봇을 만들어 내기 위한 연구입니다. 그리고 그 발자취를 가장 선명하게 남기고 있는 기업이 현재 시점에는 NVIDIA인 것 같습니다.

<이미지 출처 : NVIDIA Youtube, GTC March 2024 Keynote with NVIDIA CEO Jensen Huang>

하지만 문제는, 이런 AI가 탑재된 로봇은 젠슨 황 같은 뛰어난 사람도 혼자 뚝딱 만들어 낼 수 없다는 것입니다. 인간과 흡사한 휴머노이드 로봇을 만들기 위해서는 다양한 요소들을 연구하고 개발할 수 있는 수많은 사람들과 자원이 필요합니다. 그래서 아마 어떤 분들은 '저건 NVIDIA 정도 되는 인력과 자원을 가진 기업이나 할 수 있는거지, 우리가 저런 걸 어떻게 만들 수 있겠어?'라고 생각하실 텐데요. 그런 분들이라면, 이번 키노트 세션을 처음부터 끝까지 제대로 보지 않은 분들이라고 확신합니다.

<이미지 출처 : 야나두 광고 캡처>

이번 GTC 2024를 끝까지 보고 난 뒤 저는, '진짜 영화나 애니메이션에서나 보던 휴머노이드 로봇이 거리를 활보하고 다니는 것을 내가 죽기 전에 진짜로 볼 수 있겠구나' 라는 생각을 했습니다. NVIDIA가 자신들이 아닌 다른 기업들도, 누구나 AI 로봇을, AI를 만들어낼 수 있는 다양한 도구들을 발표했거든요. '에이, 저건 NVIDIA니까 가능한거야, 우린 안돼'가 아닌 '와~ 우리도 할 수 있겠는데?'라는 자신감을 심어 준 발표가 아닌가 싶습니다.

그리고, 이번 콘텐츠에서는 그 첫 걸음을 때려는 기업들에게 딱 알맞은 NVIDIA GPU를 소개해 드리려고 합니다. 아젠다는 아래와 같습니다.

아젠다

1. GTC 2024에서 발표된 Blackwell GPU 핵심 요약

2. 자체 AI 서비스 개발을 보다 간편하게 만들어주는 NVIDIA 생태계

3. AI 서비스 개발의 첫 단추로 적합한 GPU, NVIDIA L40S

4. 결론 : 돌다리도 두드리며 건너야, AI 개발은 먼저 L40S로 시작해 보세요

※ 콘텐츠 퀴즈 이벤트

●아젠다 별 링크를 클릭하면 해당 내용의 첫 부분으로 이동합니다.
●마우스의 뒤로가기 버튼을 클릭하면 다시 아젠다로 돌아옵니다

이 콘텐츠는 NVIDIA 파트너, ㈜한국인프라의 지원으로 제작되었습니다.

1. GTC 2024에서 발표된 Blackwell GPU 핵심 요약

2시간이 넘는 GTC 2024 키노트 세션에서는 크게 3가지 내용이 발표되었습니다. 새로운 아키텍처의 GPU를 기반으로 한 엄청난 성능을 자랑하는 AI 인프라, NVIDIA의 AI 소프트웨어 생태계, 그리고 그 결과물인 로봇과 로봇 개발을 위한 전용 플랫폼입니다. 각 파트의 자세한 내용은 이미지에 링크로 걸어 둔 GTC 2024의 키노트 영상을 참고하시면 되고요. 이번 파트에서는 GTC 2024에서 새롭게 발표된 GPU, Blackwell에 대해 간단히 알아보겠습니다.

■Blackwell GPU

<이미지 출처 : NVIDIA Youtube, GTC March 2024 Keynote with NVIDIA CEO Jensen Huang>

이번 GTC 2024에서 NVIDIA는 또 하나의 엄청난 제품을 발표했습니다. 수요가 너무 폭발적이라 없어서 못 구할 정도였던 Hopper 아키텍처 기반의 H100 GPU도 엄청난 성능을 자랑했는데, NVIDIA는 그 H100 GPU의 성능을 아득히 뛰어넘는 제품을 내놓은 것인데요. 새롭게 발표한 GPU 아키텍처는 미국 국립과학원 최초의 흑인 회원이자 게임 이론 및 확률 이론에 큰 공헌을 한 David Blackwell의 이름에서 가져온 Blackwell(블랙웰)입니다.

Blackwell 아키텍처가 이전 세대 Hopper 아키텍처와 다른 점은 2개의 다이(Die)를 하나의 칩으로 패키징한 칩렛(Chiplet) 구조를 선택했다는 것입니다. 그래서 하나의 Blackwell GPU 칩에 2개의 Die가 들어가있으며, 이 두개의 Die는 마치 하나의 칩처럼 작동합니다. GPU 칩의 이름은 B200이고요. B200의 특징을 간단히 정리하면 아래와 같습니다.

●NVIDIA 최초의 칩렛 구조로 만들어진 GPU
●8TB/s의 대역폭을 갖춘 HBM3e 메모리 192GB
●FP8 성능 20 petaFLOPS로 H100 대비 2.5배 향상됨

※ 다이(Die) : 반도체 제조 과정에서 단일 반도체 웨이퍼에서 잘려 나온 개별적인 작은 사각형 또는 직사각형 조각으로, 실리콘 웨이퍼 위에 마이크로프로세서, 메모리, 센서 등의 전자 회로가 집적된 집적회로(IC)의 핵심 부품입니다.

<이미지 출처 : NVIDIA Youtube, GTC March 2024 Keynote with NVIDIA CEO Jensen Huang>

Blackwell GPU는 이전 세대인 Hopper GPU와 마찬가지로 단일 GPU로 제공되지 않습니다. 8개의 GPU가 하나의 보드에 꽂힌 형태인 HGX 폼팩터로 제공되는데요. 실제 기업들이 B200을 사용할 때에는 8개의 B200이 장착된 HGX B200을 사용해야 합니다. 이 HGX는 2개 모델로 제공되는데, 바로 HGX B200과 HGX B100입니다.

HGX B200과 HGX B100의 GPU 사양은 동일합니다. 다만 AI 성능에서 약 20% 정도의 성능 차이가 발생하는데요. HGX B100은 HGX B200 대비 전력 사용량을 제한하여 성능을 약간 낮춘 모델이며(GPU 당 TDP가 HGX B200은 1,000W, HGX B100은 700W) 기존의 H100 플랫폼과 완벽하게 호환됩니다. 즉, 기존에 HGX H100을 사용하고 있던 기업이라면, 그 서버에서 그대로 HGX H100 모듈만 HGX B100 모듈로 갈아끼우면 됩니다. 하지만 HGX B200 모듈은 HGX H100 모듈이 장착된 서버와 호환되지 않습니다.

■Grace Blackwell Super Chip

<이미지 출처 : NVIDIA Youtube, GTC March 2024 Keynote with NVIDIA CEO Jensen Huang>

B200에 이어 또 하나의 제품이 공개되었는데요. GB200입니다. 이전 세대 H100에도 GH100이라는, Grace CPU 칩 1개와 H100 GPU 1개가 하나로 합쳐진 슈퍼칩이 있었는데, 이번 GB200은 B200 GPU 2개에 Grace CPU 1개가 결합된 슈퍼칩입니다. 2개의 GPU가 장착되어 있으니 당연히 메모리는 용량이 2배로 늘어난 384GB이며, FP8 성능 역시 2배가 증가한 40petaFLOPS입니다. 그리고 GPU와 CPU는 900GB/s의 대역폭을 갖춘 NVLink-C2C(Chip to Chip)으로 연결되어 있습니다.

<이미지 출처 : NVIDIA Youtube, GTC March 2024 Keynote with NVIDIA CEO Jensen Huang>

GB200의 특징을 간단히 요약하면 아래와 같습니다.

●2,000억개가 넘는 트랜지스터가 집작된 초 고밀도 슈퍼칩
●FP4/FP6 Tensor Core를 지원하는 2세대 Transformer Engine
●1.8TB/s의 대역폭으로 이전 세대보다 2배 빨라진 5세대 NVLink
●칩에 장착된 모든 구성 요소를 자체적으로 테스트해서 항상 높은 성능을 발휘할 수 있도록 하는 RAS 엔진
●저장, 전송, 심지어 연산 중에도 암호화되어 수행되는 안전한 암호화
●데이터를 20배 빠르게 전송할 수 있는 고속 압축 엔진

※ RAS 엔진 : Blackwell 기반 GPU에 포함되어 있는 전용 엔진으로 AI기반으로 예방유지관리를 활용하여 진단하고 신뢰성 문제를 예측하는 기능이 칩에 포함 되어 있습니다. 이를 통해 시스템 가동 시간을 극대화 하고 대규모 AI 배포의 복원력을 향상 히켜 한번에 몇주 또는 몇달동안 중단 없이 실행하고 운영비용을 절감할 수 있습니다.

■GB200 NVL72 시스템

<이미지 출처 : NVIDIA Youtube, GTC March 2024 Keynote with NVIDIA CEO Jensen Huang>

앞서 언급한 GB200이 하나의 노드에 2개씩 장착되고, 추가로 4개의 Connectx-800G 인피니밴드 NIC, 1개의 Bluefileld-3 DPU가 더해져 하나의 GB200 컴퓨팅 노드를 구성합니다. 이 GB200 컴퓨팅 노드 18개가 하나의 랙에 꽂히고요. 그럼 CPU는 36개, GPU는 72개가 되죠? 이 많은 CPU와 GPU들이 병목현상 없이 빠르게 데이터를 주고 받는 역할을 수행하기 위해 NVLink Switch 시스템이 등장했습니다. NVLink Switch 칩 2개와 1.8TB/s의 대역폭의 포트 8개를 가진 NVLink Switch 노드 9개로 구성된 NVLink Switch 시스템에 GB200 컴퓨팅 노드 18개가 더해진, 총 27개의 노드가 꽂힌 거대한 랙이 바로 GB200 NVL72입니다.

GB200 NVL72 하나의 시스템만으로 기대할 수 있는 성능은 어마어마합니다. 무려 1.4 exaFLOPS의 AI 성능에 HBM3e 메모리는 30TB에 달합니다. 수 조개의 매개변수를 학습할 수 있는 인프라를 단 하나의 시스템으로 구성할 수 있다는 것입니다.

여기까지 Blackwell GPU에 대해 간단히 핵심 내용 위주로 알아봤고요. Blackwell GPU는 2024년 말에 출시된다고 합니다. 보다 자세한 내용은 이미지 출처로 남긴 링크로 이동하셔서 키노트 영상에서 확인해 보시기 바랍니다.

2. 자체 AI 서비스 개발을 보다 간편하게 만들어주는 NVIDIA 생태계

GTC 2024의 전반부는 Blackwell GPU가 장식했는데, 사실 이건 거대한 NVIDIA AI 생태계의 서막에 불과했습니다. NVIDIA가 정말 하고 싶은 것은 단순히 고성능 GPU를 만드는 것이 아니었던 겁니다. 그 내용을 간단히 정리해 보겠습니다.

■NIM(NVIDIA Inference Microservice)

<이미지 출처 : NVIDIA Youtube, GTC March 2024 Keynote with NVIDIA CEO Jensen Huang>

사실 NVIDIA가 AI를 강조한 지는 꽤 됐습니다. 그들의 강력한 GPU를 바탕으로 거대한 슈퍼 컴퓨팅 인프라를 만들고, 그 인프라를 AI 학습 및 추론에 활용해 헬스케어, 기후 변화와 같은 자연 재해 예방, 자율 주행 등 다방면에 활용하려는 노력을 오랫동안 해왔습니다. 그리고 그 노력의 일환으로 다양한 AI 모델들을 자체 개발하거나 다양한 관계 기관들과 협력하여 제공하고 있습니다.

하지만 문제는, 이러한 AI 모델을 활용하기 위해 넘어야 할 장벽이 꽤 높다는 것입니다. AI 모델을 가져다가 다시 학습시키기 위해 엄청난 자원의 인프라가 동원되어야 하고, 이를 연구하고 발전시켜 나갈 AI 과학자들도 많이 필요합니다. 실제 학습시킨 AI 모델을 바탕으로 추론을 수행할 수 있는 애플리케이션을 개발할 개발자도 많이 필요하죠. 그리고 그 개발자들도 처음부터 코딩해 나가면서 AI 모델을 끊임없이 검증하고 완성도를 올려 나가야 합니다. 즉, 많은 인적, 물적 자원을 보유한 연구기관이 아니면 이러한 AI 모델을 활용하기 너무도 어렵다는 것입니다. 아주 규모가 큰 대기업이 아니고서야, 일반 기업들은 활용할 엄두가 안나겠죠.

<이미지 출처 : NVIDIA Youtube, GTC March 2024 Keynote with NVIDIA CEO Jensen Huang>

그래서 NVIDIA는 다양한 업종에서 활용할 수 있는 다수의 AI 모델을을 자체적으로 학습시켜 마이크로 서비스로 패키지화 했습니다. 기업은 그저 이 패키지를 활용하여 추론 작업에 사용하면 됩니다. 이것을 NVIDIA는 NIM, NVIDIA Inference Microservice라고 부릅니다.

<이미지 출처 : NVIDIA Youtube, GTC March 2024 Keynote with NVIDIA CEO Jensen Huang>

NIM은 NVIDIA가 이미 충분히 검증한 AI 모델을 클라우드나 온프레미스 어디서든 컨테이너 환경, 쿠버네티스 환경에서 활용할 수 있는 AI 모델을 작은 컨테이너로 패키지화한 마이크로 서비스입니다. AI 모델의 자체개발 여력이 부족한 많은 기업들이 이미 사전 학습된, NVIDIA가 만들거나 혹은 NVIDIA의 파트너가 만든 AI 마이크로 서비스 패키지를 활용하여 자신들의 인프라에 올려 활용할 수 있다는 것입니다.

NIM은 AI 서비스 개발의 판도를 완전히 뒤바꿀 수 있는 혁신적인 서비스입니다. 사실 전 Blackwell 보다 NIM이 더 파급력이 있지 않을까 생각하는데요. AI 서비스 개발이 기존에 가지고 있던 높은 허들을 단번에, 전부는 아니더라도 상당 부분은 제거할 수 있는 역할을 NIM이 해줄 수 있다고 봅니다. 전문 AI 개발자가 특정 AI 서비스를 개발하기 위해 처음부터 모델을 학습 시키고 개발된 서비스에 모델을 탑재해서 테스트할 필요 없이, NVIDIA가 사전에 만들어 둔 다양한 패키지를 가져다가 조합해서 뚝딱 AI 서비스를 만들어 내고, 이 서비스를 NVIDIA GPU 환경, CUDA가 설치된 환경에서 자유롭게 활용할 수 있는 길이 열린 것입니다.

<이미지 출처 : NVIDIA Youtube, GTC March 2024 Keynote with NVIDIA CEO Jensen Huang>

실제로 NVIDIA는 내부적으로 칩 디자인에 사용할 챗봇 개발에 NIM을 활용하고 있다고 합니다. 7조개의 파라미터를 가진 Llama-2가 이미 NIM으로 제공되고 있는데, 이 NIM 패키지를 가져다가 그대로 사용했을 때 문제가 있어 적절하게 자신들의 데이터를 기반으로 파인튜닝한 다음 활용하고 있다고 합니다. 자신들이 사용해보고 너무 좋아서 GTC 2024에서 공개한 것이 아닌가 하는 생각이 드는데, 본격적으로 AI 서비스 개발의 대중화가 시작될 수 있는 계기를 NVIDIA가 만들어 낸 것 같습니다.

<이미지 출처 : NVIDIA Youtube, GTC March 2024 Keynote with NVIDIA CEO Jensen Huang>

NIM을 바탕으로 기업들의 AI 서비스 개발은 크게 탄력받을 것입니다. 그리고 궁극적으로는 기업 고유의 업무에 도움이 되는 코파일럿을 만드는 데에 NIM이 활용될 수 있습니다. 헬스케어 업계에서 의사를 대면하기 전 궁금한 사항들을 미리 물어보고 확인할 수 있는 아주 똑똑한 디지털 의사를 만들 수도 있을 것이고, 논문을 자주 보는 연구원들은 PDF 논문의 핵심 내용만 발췌해서 간단히 요약본을 만들어 줄 수 있는 챗봇과 대화하면서 그들의 지식을 쌓아나갈 수 있을겁니다.

즉, NVIDIA는 점점 더 뛰어난 성능을 발휘하는 AI를 단 시간에 학습시키고 추론에 활용할 수 있는 인프라, 그리고 그 인프라를 기반으로 사전 학습된 AI 모델을 간편하게 활용할 수 있는 마이크로 서비스, 여기에 더해 이 마이크로 서비스를 기업들이 쉽고 간편하게 파인튜닝해 가면서 그들 환경에 최적화시켜나갈 수 있도록 돕는 추가적인 서비스를 제공하고 있는 것입니다. GTC 2024에서 젠슨 황 CEO가 'NVIDIA는 AI 파운드리다, 칩은 TSMC에 맡기듯, AI 서비스는 우리에게 맡겨라'라고 자신있게 말한 이유가 바로 여기에 있습니다.

■진정한 디지털 트윈, NVIDIA Omniverse

<이미지 출처 : NVIDIA Youtube, GTC March 2024 Keynote with NVIDIA CEO Jensen Huang>

앞서 서두에서 NVIDIA가 하려는 궁극적인 것은 인간처럼 행동하는 휴머노이드 로봇을 만드는 것으로 생각한다고 말씀드렸습니다. NIM은 기업들이 디지털 환경에서 활용할 수 있는 AI 서비스, 챗봇, 코파일럿을 만들 수 있도록 도와주는 마이크로 서비스 패키지죠. 기업들은 NIM으로 AI 서비스의 완성도를 높이기 위해 끊임없이 디지털 환경에서 테스트할 수 있습니다.

그런데, 이와는 달리 실제 세상에서 보고 만지고 활용할 수 있는 실물은 조금 다릅니다. 생산 효율성을 위해서라도 가능하면 시제품을 적게 만드는 것이 좋을 겁니다. 제품을 만드는 작업이든, 특정 환경을 구축하는 프로젝트든, 미리 가상의 환경에서 실제와 똑같이 정밀하게 테스트해 보고 검증한 다음 제작에 들어가야 효율성을 높일 수 있습니다. 게다가 효율성뿐만 아니라 안정성도 미리 검증해야 하죠. 이 작업 위해 필요한 것이 가상 환경에서의 시뮬레이션입니다. 그리고 NVIDIA가 제공하는 솔루션이 바로 Omniverse입니다.

<이미지 출처 : NVIDIA Youtube, GTC March 2024 Keynote with NVIDIA CEO Jensen Huang>

Omniverse는 현실 세계를 가상의 3D 공간으로 그대로 옮겨와 디지털 트윈을 구축하고 마음껏 시뮬레이션해볼 수 있도록 도와주는 플랫폼입니다. 여러 산업군에서 사용되는 3D 도구들로 작업한 결과물을 Omniverse로 가져와 다양한 환경 값을 넣어 시뮬레이션 할 수 있습니다. 그런데 이 Omniverse도 원활한 사용을 위해 넘어야 할 몇 가지 장벽이 있는데요. 일단 Omniverse에서 사용되는 별도의 언어, USD(Universal Scene Description)를 익혀야 합니다. 그리고 Omniverse를 구동할 NVIDIA GPU 컴퓨팅 인프라를 마련해야 하죠.

그래서 NVIDIA는 이 Omniverse의 대중화를 위해 Omniverse가 Cloud를 발표했습니다. Microsoft Azure에서 호스팅 되는 Omniverse Cloud는 NVIDIA가 자체적으로 학습시켜둔 AI 모델도 탑재되어 있는데요. 기존에는 별도의 도구에서 작업한 3D 에셋을 가져와 USD 언어를 사용해 시뮬레이션 했던 작업을, 이제는 단순히 프롬프트에 영어로 물어보면, 그 말을 Omniverse Cloud가 USD로 알아듣고 실행한 뒤, 결과를 영어로 알려주는 방식으로 시뮬레이션 할 수 있습니다. 게다가 Omniverse 구동을 위한 인프라도 필요하지 않고, 언제 어디서든 디지털 트윈 환경에서 다양한 테스트를 통해 시제품을 검증해 나갈 수 있습니다.

■휴머노이드 로봇 개발에 날개를 달아줄 NVIDIA Project GR00T

<이미지 출처 : NVIDIA Youtube, GTC March 2024 Keynote with NVIDIA CEO Jensen Huang>

NVIDIA는 앞서 살펴본 AI 모델 학습 및 추론을 위한 인프라인 DGX, 그리고 디지털 트윈 인프라인 OVX에 더해 로봇만을 위한 더 작은 인프라인 AGX를 제공합니다. AGX는 Jetson Thor라는 로봇 전용 칩이 포함되어 있는데, DGX 인프라에서 AI 모델을 만들고, 그 AI 모델을 기반으로 OVX 인프라의 Omniverse 가상 환경에서 충분히 테스트하고, AGX 인프라에서 실제 로봇이 잘 동작하도록 끊임없이 튜닝해 가면서 로봇의 완성도를 높일 수 있는 환경을 제공합니다.

<이미지 출처 : NVIDIA Youtube, GTC March 2024 Keynote with NVIDIA CEO Jensen Huang>

그런데, 로봇에서 가장 중요한 부분은 무엇일까요? 아무래도 뇌의 역할을 하는 AI 모델이겠죠? NVIDIA는 이 로봇 전용 AI를 쉽고 간편하게 만들 수 있는 범용 AI 모델, GR00T Foundation Model을 발표했습니다. 로봇이 동작하기 위한 멀티 모달 지시 사항과 사람이 직접 학습시킨 상호 작용 데이터를 넣으면 로봇이 실제로 실행할 동작을 생성하는 모델입니다. DGX 인프라에서 학습된 모델이 OVX의 Omniverse에서 검증되고, 그 이후 AGX에서 구현되는 것입니다. 그리고 그 실제 결과물을 GTC 2024에 등장시켜 시연하는 것으로 키노트 세션은 마무리되었습니다.

여기까지, NVIDIA가 GTC 2024에서 발표한 핵심 사항들을 간단히 살펴봤습니다. 그런데 사실 제가 계속 쉽다, 간편하다 등의 문구를 사용하긴 했지만 정말 저처럼 아무것도 모르는 사람도 AI 모델을 뚝딱 만들고, AI 기반 서비스를 개발할 수 있는 것은 아닙니다. NVIDIA의 생태계에서 일단 AI 개발을 시작해 보려면 인프라가 있어야 하죠. 그 인프라가 처음부터 아직도 여전히 구하기 어려운 고가의 H100이나 이전 세대의 A100, 혹은 올해 연말에나 등장할 B200이어야 할 필요는 없습니다.

그래서 지금부터는, 기업들이 앞서 보여드린 NVIDIA의 AI 개발 생태계를 빠르게 시작할 수 있는, 현 시점 가장 공급이 원활하고 많은 활용 사례를 보유하고 있는 GPU, NVIDIA L40S에 대해 알아보겠습니다.

3. AI 서비스 개발의 첫 단추로 적합한 GPU, NVIDIA L40S

<이미지 출처 : NVIDIA L40S 소개 페이지>

L40S는 NVIDIA A100이나 H100과 같은 8 GPU로 구성된 HGX 폼팩터가 아닌 PCIe 폼팩터의 GPU 카드입니다. 그래서 대학교 연구실에서 많이 사용하는 워크스테이션에 L40S를 장착해 AI 모델 연구용으로 사용할 수 있고요. 기업에서도 4U 크기의 랙서버에 장착해서 GPU 컴퓨팅 파워를 크게 향상시킬 수 있습니다. 그럼 NVIDIA L40S를 기업에서 어떤 목적으로 사용하면 좋을까요? 최종 사용자, IT 전문가 입장으로 나눠서 정리해보면 아래와 같습니다.

<이미지 출처 : NVIDIA L40S 소개자료>

●최종 사용자

직접 LLM과 같은 AI 모델을 학습시키고 이미 생성된 AI 모델을 활용하고자 하는 데이터 과학자들에게 L40S는 딱 알맞은 GPU입니다. 동일 아키텍처를 사용하는 NVIDIA A100 8개를 장착한 GPU 서버 대비 L40S 8개를 장착한 서버는 LLM 모델 학습 성능이 1.7배, 추론 성능은 1.2배에서 1.5배까지 향상되며, 비용은 더 저렴합니다.

게다가 실시간 Ray Tracing(광선 추적)을 활용한 3D 모델 개발 및 시뮬레이션, 렌더링, 여기에 더해 자체 인프라에서 Omniverse를 사용하고자 할 경우 L40S에 장착된 142개의 3세대 RT코어와 48GB GDDR6 메모리로 A100 대비 최대 2배 향상된 성능을 누릴 수 있습니다.

●IT 전문가

L40S는 기업의 데이터 센터에서 24시간 사용되어도 문제 없을 만큼 안정성이 검증되었습니다. 게다가 L40S 하나 당 4개의 DP 1.4 포트를 가지고 있어 방송 제작 및 엔터테인먼트 업계에서 대형 디스플레이 월을 구동하는 데에도 제격입니다.

이번에는 사용자 관점이 아닌 실제 L40S를 어떤식으로 활용할 수 있는지 좀 더 자세히 알아보겠습니다.

●생성형 AI와 LLM 학습 및 추론

<이미지 출처 : NVIDIA L40S 소개자료>

L40S는 실시간 Ray Tracing, 전용 인코딩 및 디코딩 엔진과 결합된 강력한 추론 기능을 기반으로 AI 기반 오디오, 2D 및 3D 이미지와 비디오 생성 애플리케이션의 성능을 향상시킵니다. AI 모델 성능을 좌우하는 주요 스펙 중 하나가 비디오 메모리 용량인데, L40S의 메모리는 48GB로 넉넉해서 NVIDIA A40 GPU 대비 5배, HGX A100보다 1.2배의 뛰어난 성능을 제공합니다.

게다가 NVIDIA의 AI 소프트웨어 스택을 온전히 활용할 수 있어, 최대 1petaFLOPS의 성능을 활용해 LLM 학습 및 추론, 파인 튜닝 등 기업의 AI 모델 개발에 부족함이 없는 GPU라고 평가받고 있습니다.

●렌더링 및 3D 그래픽

마치 실사와 같은 현실적인 3D 그래픽을 생성할 수 있는 애플리케이션을 활용하고자 할 때 중요한 것은 실시간으로 내가 작업하는 결과물을 주요 환경 변수가 적용된 상태로 보여줄 수 있는 PBR(물리 기반 렌더링) 성능입니다. L40S는 3세대 RT 코어와 48GB 메모리를 바탕으로 이전 세대인 L4 GPU 대비 2배 빠른 렌더링 성능 및 Ray Tracing 성능을 제공합니다. 3D 그래픽 모델러 및 아티스트들의 작업 생산성을 비약적으로 향상시켜줄 수 있다는 것입니다.

●NVIDIA Omniverse 활용

<이미지 출처 : NVIDIA Youtube, Mercedes-Benz NVIDIA Omniverse 활용 사례>

<이미지 출처 : NVIDIA Blog, ‘제조·물류 분야의 AI 도입을 위해’ NVIDIA Isaac 로보틱스 플랫폼>

앞서 소개한 NVIDIA Omniverse 디지털 트윈을 L40S로도 구현할 수 있습니다. Mercedes-Benz의 사례와 같이 자동차 제조 공정의 효율성 향상을 위해 미리 Omniverse 가상 환경에서 시뮬레이션 해 보고 실제 생산 라인에 적용할 수 있고요. 제조·물류 분야에서 자율운행 로봇을 통해 운영 효율성을 증가시키기 위해 Omniverse에서 시뮬레이션하고, 그 결과를 반영해 실제 물류 창고에서 활동하는 로봇을 만들 수 있는 NVIDIA 로보틱스 플랫폼도 L40S에서 활용할 수 있습니다.

●NVIDIA CloudXR

<이미지 출처 : Ericsson Youtube, 에릭슨엘지 파트너스 데이>

<이미지 출처 : Ericsson Youtube, #이음5G 생태계 파트너와 함께 한 #EP5G VR 서비스 데모>

NVIDIA Omniverse는 모니터로 가상 환경을 보면서 시뮬레이션하는 환경을 제공합니다. 이 콘텐츠에서는 소개하지 않았지만 GTC 2024에서 젠슨 황 CEO는 Omniverse가 Apple Vision Pro에서 활용할 수 있다고 발표했는데요. 비슷한 사례를 가져와 봤습니다.

위 이미지는 이음5G 네트워크 환경에서 NVIDIA의 CloudXR 환경에 접속한 모습입니다. HMD고글을 쓰고 실제 가상 세계에서 작업자가 3D 모델을 입체적으로 살펴보면서 동료와 함께 색상을 결정하는 시연으로, L40S와 NVIDIA CloudXR 솔루션이 활용되었습니다. 구체적으로 어떻게 작동하는지는 위 이미지의 링크에서 확인해 보시기 바랍니다.

4. 결론 : 돌다리도 두드리며 건너야, AI 개발은 먼저 L40S로 시작해 보세요

<이미지 출처 : NVIDIA Youtube, GTC March 2024 Keynote with NVIDIA CEO Jensen Huang>

GTC 2024 키노트 세션에서 가장 인상깊었던 장면 중 하나를 가져왔습니다. NVIDIA의 로봇용 AI 모델 학습 도구인 Isaac Lab에서 로봇들의 행동을 시뮬레이션하고 있는 Omniverse 디지털 트윈 스크린샷인데요. 저 가운데에 있는 로봇이 딱 저와 같은 모습이지 않나 생각됩니다. AI라는 거대한 물결, 그리고 AI를 활용하기 위한 갖가지 장애물들이 눈앞에 놓여있는데 과연 잘 헤쳐 나갈 수 있을까 걱정이 되는 제 심정이 그대로 저 로봇에 투영된 것 같은 느낌이 들었거든요. 실제로 키노트 세션에서 시연된 영상에서 저 로봇은 다양한 높낮이의 발판을 밟고 뒤뚱거리며 간신히 걸어 나가는 모습을 보입니다.

<이미지 출처 : NVIDIA Youtube, GTC March 2024 Keynote with NVIDIA CEO Jensen Huang>

GTC 2024 키노트 세션에서 젠슨 황 CEO는 AI로 인해 산업 혁명을 뛰어 넘는 거대한 변혁이 시작되었다고 말했습니다. 하지만 과거를 살펴보면 산업혁명 시절 도태되는 사람도 많았던 것이 사실입니다. 새로운 기술을 두려워하고, 변화를 거부하는 자들은 자연스럽게 도태되었죠. 그리고 조금씩 인류는 조금씩 적응해 나가면서 큰 발전을 이루어 냈습니다.

GTC 2024에서 AI의 발전을 실제로 목도한 저를 비롯한 많은 사람들의 심정도 저 Omniverse 가상 환경에 있는 많은 로봇들과 갖지 않을까 싶습니다. 현재 우리 앞에는 각자의 위치와 상황에 따라 각기 다른 형태의 AI라는 커다란 장애물이 놓여져 있습니다. 그리고 그 장애물을 극복해 나가기 위해 끊임없이 시행착오를 겪겠죠. 마치 저 영상에서 계단을 내려가다 넘어지는 로봇들 처럼요.

하지만 넘어진 로봇은 넘어진 채로 머무르지 않습니다. 곧바로 다시 일어나 주변을 탐색하고 앞으로 걸어 나갑니다. 그리고 조금 전에 넘어졌던 장애물을 다시 만나면, 이제는 넘어지지 않고 잘 헤쳐 나갈 수 있게 됩니다. 학습을 한 거죠. 우리도 마찬가지입니다. 거대한 AI 인프라와 그 인프라에서 활용될 수많은 AI 모델들, 너무도 빠르게 진화해서 멀리 달아나 버릴 것 같은 첨단 AI 기술들이 우리 눈앞에 실제로 다가오고 있지만, 처음부터 그 모든 기술들을 섭렵할 수는 없습니다. 그럴 만한 자원을 단 기간에 갖추는 것도 어렵습니다. 그래서 필요한 것이 AI 개발 경험치입니다.

<이미지 출처 : davideaversa.it blog, GameDesign Math: RPG Level-based Progression>

RPG 게임을 해본적이 있는 분들은 잘 아시겠지만, 처음에 시작할 때 주인공은 한없이 약하기만 한 존재입니다. 필드의 저렙 몬스터들에게 죽어 나가기 일쑤죠. 거대한 보스는 감히 도전할 시도조차 하지 못합니다. 하지만 조금씩 몬스터를 잡고 경험치를 쌓으면 레벨업을 하죠. 즉, 성장을 하게 됩니다. 그리고 성장 끝에 필드 몬스터는 물론이고 보스도 너끈히 잡을 수 있게 됩니다.

이 때 필요한 것은 무엇일까요? 바로 포기하지 않고 처음부터 차근차근 한 걸음씩 내딛는 자세입니다. 최신 AI 트렌드와 기술들이 버겁다고 느껴진다면, 기초 단계부터 하나씩 경험해 나가면 됩니다. NVIDIA와 GTC 2024에서 발표된 많은 NVIDIA의 협력사를 제외한 대다수의 기업들은 이제 막 AI라는 필드에 도착한 뉴비니까요.

<이미지 출처 : NVIDIA L40S 소개자료>

이제 막 AI 서비스 개발을 시도해 보려는 기업, 다양한 AI 서비스들을 실제 우리 회사 업무에 적용해 보기 위한 인프라가 필요한 기업들 입장에서 NVIDIA H100, B200은 다소 과한 인프라입니다. 성능만 과한가요? 구하기도 어렵고 구한다 해도 비용도 너무 비쌉니다. AI 서비스 개발 초기 단계에 있는 기업들은 무수히 많은 시행착오를 직접 경험해야 하기에 클라우드 인프라를 사용하는 것도 부담입니다. 테스트를 수없이 반복하게 될 텐데, 그 때마다 비용을 지불해야 할테니까요.

그래서 이러한 사정에 놓인, AI 시대의 뉴비들에게 알맞은 제품이 바로 NVIDIA L40S입니다. 앞서 소개한 것처럼 PCIe 폼팩터로 활용 범위가 넓고, 공급이 원할해 A100, H100보다 쉽게 구할 수 있으며, A100보다 AI 성능은 더 뛰어납니다. 그래서 NVIDIA의 AI 생태계를 고스란히 누리면서 빠르게 AI 서비스 개발을 시작할 수 있는, 그럼으로써 AI 경험치를 쌓기를 원하는 기업에 제격입니다. 특히 거창하게 디지털 트윈까지는 아니더라도 실제 시제품을 만들기 전에 가상의 환경에서 시뮬레이션을 해 보고 싶은 수요가 많은 제조, 건설 기업이라면 L40S가 더할 나위 없이 좋은 제품이 될 것입니다.

그리고 NVIDIA의 공식 파트너사인 ㈜한국인프라는 NVIDIA의 GPU를 활용한 데이터센터 구축과 DGX솔루션 공급뿐만 아니라 디지털 트윈의 핵심이 되는 Omniverse와 CloudXR 등의 NVIDIA의 플랫폼 솔루션을 공급하고 있습니다. 이와 동시에 해당 플랫폼의 핵심 디자인 솔루션인 Autodesk사의 3ds Max, Maya, Revit, Trimble사의 SketchUp, Chaos사의 V-ray 등을 제공하고 있습니다.

마침 컨설팅 이벤트도 진행하고 있으니, 보다 자세한 상담이 필요하시다면 아래의 링크로 문의해 보시기 바랍니다.

●㈜한국인프라 전문가에게 상담 신청하기

※ 정답자가 이미 많이 나온 관계로 퀴즈 이벤트는 여기서 종료합니다. 너무 쉬웠나요? 다음 콘텐츠 퀴즈는 좀 더 어렵게 내보겠습니다! 당첨자는 개별적으로 쪽지 드릴테니 쪽지 확인해주세요. 많이 참여해 주셔서 감사합니다!

마지막으로, 이번 콘텐츠 내용을 토대로 간단한 퀴즈 이벤트를 진행합니다. 아래의 퀴즈 문항을 참고하시어 댓글로 정답을 남겨주세요. 정답을 맞추신 분들 중 5명을 추첨해 스타벅스 카페 아메리카노 기프티콘을 드립니다. 콘텐츠 내용을 꼼꼼히 읽으신 분들은 쉽게 맞추실 수 있을거에요!

퀴즈 1 : 다음 중 NVIDIA GTC 2024 키노트 세션에서 발표된 내용 중 잘못된 것은?

1) Blackwell 아키텍처 기반 GPU B200은 2개의 다이를 집적시킨 칩렛 구조로, 이전 세대 GPU인 H100 보다 FP8 성능이 2.5배 향상되었다

2) GB200은 NVIDIA가 설계한 Grace CPU에 B200 GPU 1개가 결합된 슈퍼칩이다

3) NIM은 NVIDIA가 제공하는 사전 학습 된 AI 모델을 컨테이너로 패키지화 한 마이크로 서비스로, 누구나 쉽게 AI 모델 개발을 시작할 수 있도록 돕는 서비스다

4) NVIDIA Omniverse는 가상의 환경에서 실제 처럼 시뮬레이션할 수 있는 디지털 트윈 솔루션으로, 직접 NVIDIA GPU 인프라에서 구동하거나 Azure에서 호스팅되는 Omniverse 클라우드를 이용할 수 있다

5) NVIDIA는 Project GR00T를 통해 기업들이 쉽게 로봇 전용 AI 모델을 개발할 수 있는 GR00T Foundation Model을 제공한다

퀴즈 2 : 다음 중 NVIDIA L40S에 대한 내용으로 잘못된 것은?

1) NVIDIA L40S는 Ampere 아키텍처의 A100보다 AI 성능이 더 뛰어나다

2) L40S는 PCIe 폼팩터로 워크스테이션에 1개만 장착할 수도 있고 서버에 8개를 장착해 LLM을 위한 GPU 서버를 구성할 수도 있다

3) L40S는 142개의 3세대 RT코어에 48GB의 HBM2 메모리를 장책해 이전 세대 GPU인 L4보다 2배 빠른 렌더링 성능을 제공한다

4) L40S는 3D 그래픽 렌더링, Omniverse를 활용한 디지털 트윈, 나아가 LLM 학습 및 추론까지 활용할 수 있는 전천후 GPU이다

5) NVIDIA CloudXR 솔루션과 L40S를 활용하면 가상 환경에서 마치 실제로 작업하는 것 처럼 동료들과 현실감있는 협업을 할 수 있다

이번 콘텐츠가 자체 AI 서비스 개발을 준비하고 있는 기업의 IT 담당자 분들께 조금이나마 도움이 되었기를 바랍니다. 끝!

20개의 댓글이 있습니다.

쪽지 보내기

21일 전 | 쉐어드아이티 | 031-212-1710

정답자가 많이 나온 관계로 퀴즈 이벤트는 조기 종료하겠습니다. 조만간 다른 콘텐츠 올리면서 퀴즈 이벤트 또 진행할거니 이번에 당첨되지 않으셨더라도 너무 실망하지 마세요! 이번달에 2개 더 진행 예정입니다.

당첨자 분들께는 개별적으로 쪽지 드려서 휴대폰번호 여쭤보겠습니다. 많이 참여해 주셔서 감사합니다.

댓글 남기기

댓글을 남기기 위해서는 로그인이 필요합니다.

클라우드마켓

마켓플레이스

브랜드별 제품

이제 막 AI 개발을 시작하는 회사라면 L40S가 딱이에요!

20개의 댓글이 있습니다.

댓글 남기기

댓글 남기기

댓글 남기기

댓글 남기기

댓글 남기기

댓글 남기기

댓글 남기기

댓글 남기기

댓글 남기기

댓글 남기기

댓글 남기기

댓글 남기기

댓글 남기기

댓글 남기기

댓글 남기기

댓글 남기기

댓글 남기기

댓글 남기기

댓글 남기기

댓글 남기기

댓글 남기기