AI 급행열차에 타라! NVIDIA H100 + AI 솔루션

2023.07.20 관리자 (쉐어드아이티) 12개의 댓글

ChatGPT와 AI, 이 두 단어는 최근 1년 사이에 한 번도 들어보지 못한 현업 실무자를 찾는 게 어려울 정도로 빈번하게 접하는 단어가 아닐까 합니다. 구글 딥마인드와 전직 프로 바둑 기사 이세돌 씨가 진행했던 세기의 바둑 대결 이후 AI는 많은 이에게 관심 대상이 되었죠. 특히 산업 현장에서는 단순한 관심에 그치지 않고 자사 이윤 창출과 기술 발전에 어떻게 이바지할 수 있을지도 끊임없이 고민을 이어 나가고 있습니다.

게다가, 최근에는 OpenAI를 통해 음성을 자막으로 변환하는, Whisper라는 AI 모델도 등장했습니다. Microsoft에서는 Copilot을 공개하면서 Microsoft Office와 AI 결합을 강조하는 등 AI 산업이 빠르게 가속화되고 있다는 인상을 받는 요즘인데요. 이런 AI 산업 가속화의 중심에는 NVIDIA가 있다는 것을 누구도 부정할 수 없듯이 NVIDIA의 AI 산업에 대한 영향력은 점점 커지고 있는 듯합니다. 이미 자율 주행 기술에 관한 연구나 게임에서 업스케일링 기술을 적용하는 데 AI를 적극적으로 활용하고 있는 NVIDIA이기에 AI를 활용하려는 다양한 산업 분야에서는 그들의 행보를 더욱 예의주시하고 있지 않나 하는 생각도 듭니다.

<이미지 출처: NVIDIA>

시장의 이런 기대에 부응하듯, 지난 2023년 6월에 개최되었던 Computex 2023 국제 행사에서 NVIDIA는 키노트 세션에 AI 산업을 바라보는 NVIDIA의 시선과 미래에 관한 주제로 약 2시간에 달하는 시간을 할애했습니다. 젠슨 황 CEO가 직접 등장해서 발표와 실물 공개를 이어갔던 발표는 현장에서 뜨거운 반응을 얻었으며, AI 산업이 앞으로 어떤 방향으로도 발전할 수 있는지 이정표를 제시했다고도 볼 수 있었는데요. 실시간 그래픽 처리 기술 정점에 자리 잡고 있다고 해도 과언이 아니었던 레이 트레이싱(Ray Tracing) 기술을 높은 수준까지 끌어올린 NVIDIA이기에, 새롭게 제시한 AI 산업 이야기는 다방면으로 흥미로운 주제를 다룬 세션이지 않았나 생각됩니다.

그리고, 최근 쉐어드IT에서도 AI 프로젝트를 위한 인프라 구축 시 어떤 부분을 고려해야 하는지, 그리고 구축 사례 및 효과는 어떤지에 대한 정보를 담은 웨비나를 진행했습니다. 해당 웨비나에서는 NVIDIA에서 공개한 최신 H100 모델을 이용해 구현한 GPU서버를 도입하기 위해 알아두면 좋은 여러 체크포인트를 소개하는 시간을 가졌는데요. 그래서 이번 콘텐츠에서는 AI 산업에 많은 관심이 쏠리고 있는 요즘이기에, NVIDIA 발표 내용과 최근 진행한 웨비나 내용을 곁들여서 소개해 보는 시간을 가져보려고 합니다.

먼저, 지난 2023년 6월 컴퓨텍스 2023에서 젠슨 황 CEO가 직접 발표했던 키노트 중 AI 인프라와 관련된 내용을, 이어서 지난 2023년 7월 13일에 진행했던 웨비나의 일부 내용을 요약해서 정리했고요. 주요 아젠다는 아래와 같습니다.

아젠다

1. AI인프라를 위한 최신 GPU, NVIDIA H100 소개

2. Comutex 2023에서 소개된, 또 다른 NVIDIA AI 솔루션들

3. GPU 서버 도입 전 고려해야 할 사항

4. 결론

※ 쉐어드IT 회원분들을 위한 퀴즈 이벤트

●아젠다 별 링크를 클릭하면 해당 내용의 첫 부분으로 이동합니다.
●마우스의 뒤로가기 버튼을 클릭하면 다시 아젠다로 돌아옵니다

이 콘텐츠는 NVIDIA 파트너, ㈜한국인프라의 지원으로 제작되었습니다.

1. AI인프라를 위한 최신 GPU, NVIDIA H100 소개

Computex 2023 NVIDIA 발표 현장에서 젠슨 황 CEO는 컴퓨팅 산업의 변화에 관한 이야기로 서두를 시작했습니다. 지난 60여 년간 유지됐던 컴퓨팅 처리 구조를 넘어서는 패러다임 변화, 그중에서도 가속 컴퓨팅(Accelerated Computing)은 NVIDIA에서 지향하는 방향이라는 설명과 더불어 AI 산업을 위한 여러 솔루션이 계속해서 언급되었고요. 이때 소개된 다양한 솔루션은 잠시 후에 소개하기로 하고, 그 전에 먼저 NVIDIA H100의 특징에 대해 먼저 알아보겠습니다. 이미 쉐어드IT에서 NVIDIA H100의 아키텍처 특징에 대해 자세히 다룬 적이 있습니다만, 워낙 방대한 내용이기도 하니 이번 콘텐츠에서는 H100의 성능 부분에 초점을 맞추어 간단히 정리해 보겠습니다.

참고로, NVIDIA H100의 호퍼 아키텍처에 대해 궁금하신 분들은 아래의 콘텐츠를 참고하시기 바랍니다.

●AI 서비스 개발하려면 NVIDIA GPU는 필수지!, NVIDIA H100 파헤치기

NVIDIA H100은 가속 컴퓨팅을 강조하는 NVIDIA 기조에 걸맞게 강력한 연산 성능을 가진 엔터프라이즈/데이터센터용 그래픽 카드입니다. 텐서 코어 GPU라는 이름이 부끄럽지 않을 정도로 강력한 이 제품은 지난 2022년 10월에 처음 등장했습니다. 차세대 그래픽 아키텍처인 호퍼(Hopper) 칩을 투입했으며, HBM3 메모리나 4세대 NVLink 기술 등 최신 기술을 접목한 것이 특징입니다.

<이미지 출처 : ㈜한국인프라>

NVIDIA H100은 크게 SXM 모듈형과 PCIe 카드형, 아직 공개되지 않은 NVL 카드형 제품군이 존재하는데요. 각각 스펙과 구성 방식이 달라지는 만큼 어떤 형태로 시스템을 고려할지 선택해야 합니다. 예를 들어 NVIDIA HGX H100 혹은 NVIDIA DGX H100 시스템을 구성하고자 한다면 SXM5 모듈형 모델이 필요하고, NVIDIA 인증 시스템에 PCIe 형태 GPU를 1~8개 장착하려고 한다면 H100 PCIe나 차후에 출시할 H100 NVL을 고려할 필요가 있습니다.

단, SXM5 모듈형과 PCIe 형은 같은 호퍼 기반 칩이라고 해도 내부 구성면에서 차이가 있습니다. SXM5 모듈형은 풀칩에서 일부가 커팅된 구조라고 하면, PCIe 형은 여기에서 더 많은 코어 및 유닛들이 커팅된 구조입니다. SXM5 모듈형은 HBM3, PCIe 형은 HBM2e를 사용하는 등 구성 측면에서도 일부 차이가 있으니 상세 스펙을 잘 확인할 필요가 있어 보이네요. 무엇보다도 전력량에서도 SXM5 모듈형 쪽이 상대적으로 더 높은 700W 급(PCIe 형은 300~350W급)에 해당한다는 점도 참고해 주시면 좋겠습니다.

<이미지 출처 : ㈜한국인프라>

이런 NVIDIA H100을 활용한 시스템 중에서 NVIDIA DGX H100은 SMX5 모듈형 NVIDIA H100 8개가 투입된 시스템으로, GPU 메모리는 총 640GB에 달합니다. FP8 기준 성능은 무려 32 PFLOPS(petaFLOPS) 수준이며, 최대 요구 전력량은 10.2kW입니다. 인텔 제온 플래티넘 8480C가 듀얼 CPU 구조로 탑재되어 총 112 코어로 구성되었고, 시스템 메모리는 2TB입니다.

이 밖에도 최적의 네트워킹 환경을 위해 NVIDIA ConnectX-7 VPI InfiniBand 어댑터를 탑재, 2개의 1.92TB NVMe M.2(OS 공간)와 8개의 3.84TB NVMe U.2(데이터 캐시)로 저장 장치를 구성했습니다. NVIDIA DGX H100에는 NVIDIA AI Enterprise가 제공되는 만큼 NVIDIA에서 제공하는 최적의 AI 기술들을 활용할 수 있습니다.

<이미지 출처 : ㈜한국인프라>

NVIDIA H100을 담은 DGX H100은 암페어(Ampere) 아키텍처 기반인 DGX A100과 비교했을 때 성능 면에서 큰 발전을 이뤘는데요. 단순히 FP8 기준 성능만 본다면 5 vs. 32로 무려 6.4배 증가(A100은 FP8 미지원으로 FP16 성능 기준 비교)했습니다. 다른 FP16~FP64 기준으로도 3배에 가깝게 성능이 향상했기에, 한 세대 만에 증가하는 성능 폭으로는 대단한 수치입니다. 빨라진 GPU 성능만큼이나 시스템 메모리 및 저장 공간, 네트워크 대역폭 역시 많이 늘어난 걸 알 수 있습니다. 실제 체감 성능 면에서도 뚜렷한 차이를 느낄 수 있지 않을까 생각이 듭니다.

<이미지 출처 : ㈜한국인프라>

이렇듯 다방면으로 한층 더 강력해진 H100 특성을 요약하자면 다음과 같습니다.

●4세대 텐서 코어 탑재로 이전 세대 대비 3~6배 빨라진 칩 간 처리 속도
●트랜스포머 모델 트레이닝 및 추론을 가속하도록 설계된 새로운 트랜스포머 엔진
●HBM3 메모리 채용으로 이전 세대 대비 2배 증가한 3TB/s 메모리 대역폭
●GPU 인스턴스 당 약 3배 더 많은 컴퓨팅 용량과 2배 가까운 메모리 대역폭을 지원하는 2세대 MIG 기술 도입
●사용자 데이터 보호와 하드웨어 및 소프트웨어 공격으로부터 방어, 가상화 및 MIG 환경에서 가상 머신(VM)을 확실하게 격리하고 보호하기 위한 컨피덴셜 컴퓨팅 지원
●PCIe Gen 5 대비 7배 수준 대역폭인 900GB/s 수준으로 이전 세대 대비 50% 증가(일반 대역폭)하고 all-reduce 작업에서 3배 증가한 4세대 NVIDIA NVLink 적용
●새로운 DPX 명령어 적용으로 동적 프로그래밍 알고리즘을 A100 GPU보다 최대 7배 가속하는 효율성 증대

다양한 특장점을 지닌 NVIDIA H100은 1대만으로도 높은 성능을 발휘하지만, 무엇보다도 여러 대를 묶어 사용할 때 빛을 발하게 됩니다. 앞서 간략히 언급했던 DGX나 HGX 같은 모듈형 시스템은 H100을 4대 혹은 8대를 묶어서 만드는 시스템이며, 이를 더욱더 확장한 초대형 시스템을 마치 GPU 1개처럼 통합해서 활용할 수도 있습니다.

<이미지 출처: NVIDIA>

NVIDIA DGX는 GPU 파드(Pod)를 더욱더 유기적인 구조로 크게 확장할 수 있습니다. NVLink 스위치로 8-GPU 서버 32대를 유기적으로 연결해 H100 256-GPU를 연결하면 놀라운 성능에 도달할 수 있는데요. FP8 연산 기준으로 1,024 PFLOPS, 조금 더 상징적인 수치로 환산하면 1 EFLOPS(exaFLOPS)에 달하는 연산 능력을 얻을 수 있습니다. 무려 엑사스케일 슈퍼컴퓨팅 성능을 250여 개 GPU만으로 얻을 수 있는 셈이죠.

NVIDIA H100 1대부터 256대까지, 기업이 어느 정도 성능을 원하고 비용을 투자할 수 있는지에 따라 NVIDIA에서는 다양한 솔루션을 지원한다는 인상을 받습니다. 전력량 면에서는 기존 x86 서버보다 GPU 서버가 지니는 이점이 워낙 강한 만큼, 비용보다는 시간과 전력량에 초점을 두는 환경에서 특히 유용해 보입니다.

여기까지 AI인프라의 필수 요소라고 할 수 있는 NVIDIA GPU, 그 중에서도 최신 GPU인 H100의 특징에 대해 간단히 알아봤습니다. 지금부터는 지난 6월에 있었던 Computext 2023에서 발표된 NVIDIA의 키노트 세션 내용을 중심으로, 새롭게 발표된 NVIDIA의 AI 솔루션들을 살펴보겠습니다.

2. Comutex 2023에서 소개된, 또 다른 NVIDIA AI 솔루션들

지난 Computex 2023에서 젠슨 황 CEO는 H100 솔루션을 소개하는 선에서 그치지 않고 가속 컴퓨팅 환경을 한층 더 빠르게 구현할 수 있도록 다양한 솔루션을 함께 곁들여 소개한 바 있습니다. 모든 내용을 상세하게 다루면 분량이 너무 방대해지는 만큼 가볍게 몇 개 솔루션을 살펴볼까 하는데요. 대표적으로 살펴볼 수 있는 솔루션은 아래와 같습니다.

●DGX GH200: 엔터프라이즈 AI를 위한 새로운 엔진
●MGX: 범용 가속 컴퓨팅을 위한 모듈식 서버 설계 솔루션
●Spectrum-X: 적응형 라우터와 BlueField-3를 조합한 최적의 네트워크 환경 구성
●Isaac Nova Orin: NVIDIA Isaac AMR 레퍼런스 디자인

■DGX GH200

NVIDIA에서 호퍼 아키텍처를 품은 GPU를 발표하면서 함께 언급했던 새로운 솔루션 중 하나는 바로 그레이스 호퍼(Grace Hopper)였습니다. 해당 모델은 CPU-GPU를 하나로 결합한 모듈형 통합 키트로, CPU에 해당하는 그레이스와 GPU에 해당하는 호퍼를 합쳐서 명명된 칩입니다. NVLink-C2C 기술로 만들어진 모델로, NVIDIA에서는 CPU-GPU에 그치지 않고 CPU-CPU, GPU-GPU 같은 구조 또한 가능하다는 언급도 남겼습니다.

그레이스 호퍼에서 CPU를 담당하는 그레이스 칩은 72 ARMv9-A Neoverse V2 코어로 구성되어 있으며, 코어당 1MB L2 캐시와 117MB 통합 L3 캐시, 최대 LPDDR5X 480GB 구성에 512GB/s 메모리 대역폭을 갖추었습니다. GPU를 담당하는 호퍼 칩은 H100 SXM5 모듈과 기본적으로는 동등한 스펙을 갖추었는데, HBM3 메모리가 최대 96GB, 메모리 대역폭이 최대 4TB/s 수준으로 기존 H100보다 조금 더 상향되어 있습니다. CPU와 GPU가 유기적으로 연결되어야 하는 만큼 둘 사이를 잇는 NVLink-C2C 대역폭도 중요할 텐데, 900 GB/s 양방향 통신이 가능합니다. CPU+GPU+메모리가 통합된 칩 TDP는 450W에서 1000W 사이로 설정할 수 있다고 하는군요.

DGX GH200은 이러한 그레이스 호퍼 칩을 256개 묶어 AI 슈퍼컴퓨팅 연산이 가능하도록 구성한 모델입니다. 144TB GPU 메모리와 230 TB/s에 달하는 NVLink 대역폭, FP8 연산 성능 기준 1 EFLOPS는 시사하는 바가 큽니다. 이러한 슈퍼컴퓨터는 일반적인 기업에서 구성하기에는 천문학적인 비용을 요구하겠지만, 어디까지 확장 가능한지를 보여준다는 차원에서는 큰 의미를 지니지 않나 생각됩니다.

■MGX 플랫폼

<이미지 출처: NVIDIA>

NVIDIA MGX는 데이터센터에 가속 컴퓨팅을 도입하기 위한 모듈식 서버 솔루션입니다. 엣지에서의 원격 시각화와 슈퍼컴퓨팅에 이르기까지 다양한 목적으로 활용할 수 있는 시스템으로, ROI를 개선하고 출시 기간을 단축해 모듈형 서버 설계의 새로운 표준을 제공하고자 하는 목표를 담고 있습니다. 모듈식 레퍼런스 아키텍처로는 x86/ARM CPU 서버와 NVIDIA OVX 시스템, CPU/GPU/DPU 구성을 다양하게 허용하는 엔터프라이즈 데이터 센터 시스템을 구성할 수 있다고 하고요. ByteDance, QCT, SoftBank, Supermicro, Pegatron 등 유명 기업들이 이미 MGX 모듈식 설계를 채택할 예정이며, 광범위한 AI나 HPC(High-Performance Computing), 5G 애플리케이션을 위한 데이터센터 구성에 활용되고 있습니다.

NVIDIA MGX의 활용 범위는 무척이나 넓습니다. 디지털 트윈, HPC 및 데이터 분석, AI, 클라우드 게이밍, 클라우드 서비스, 5G에 이르기까지 광범위한 영역에 투입할 수 있는데요. NVIDIA 그레이스 슈퍼 칩이나 GH200 그레이스 호퍼칩을 활용한 시스템들이 제공되며, 유연한 폼팩터를 적용할 수 있어 1U~4U 사이즈의 폼팩터에 CPU, GPU, DPU 구성을 자유롭게 설정할 수 있습니다. 일부 기업에서는 시스템 설계나 개발 비용 및 시간을 단축하는 데 목적을 둘 때가 있는데, 이런 경우 MGX 채택은 시간과 비용을 단축할 수 있는 훌륭한 대안이 될 수 있다는 것이 NVIDIA의 설명입니다.

■Spctrum-X

<이미지 출처: NVIDIA>

NVIDIA에서 Computex 2023 행사로 발표한 내용 중에는 네트워킹 플랫폼이 포함되어 있었습니다. 매우 빠른 초고속 연산이 가능한 시스템을 만들더라도, 결국 네트워크 시스템에서 병목 현상이나 빠른 처리가 이루어지지 않는다면 효율이 반감될 수밖에 없습니다. 특히 DGX GH200과 같이 매우 빠른 연산이 가능한 슈퍼컴퓨터 시스템이라면 수많은 입출력이 뒤따를 수밖에 없죠. 이를 개선하고 빠른 처리를 돕기 위해서 NVIDIA에서 발표한 것이 Spectrum-X 네트워킹 플랫폼입니다.

세계 최초의 이더넷 네트워킹 플랫폼을 표방하는 Spectrum-X는 NVIDIA Spectrum-4 이더넷 스위치와 BlueField-3 DPU를 결합한 모델로, AI나 머신 러닝, 자연어 처리를 포함해 다양한 산업 애플리케이션에서 최고의 성능을 제공하는 것을 목표로 합니다. 기존 이더넷을 컴퓨팅 패브릭을 활용하는 AI 클라우드는 최적화된 이더넷 환경과 비교했을 때 MLPerf 성능 면에서 다소 떨어질 수밖에 없는 게 현실입니다. 또한, 링크에 오류가 발생하면 기존 이더넷 패브릭 환경에서는 클러스터의 AI 성능이 절반 수준으로 떨어질 수 있습니다. 결국 클러스터 간 통신이나 빠른 의사 결정을 위해서라도 최적화된 네트워크 플랫폼이 요구되고 있다고 볼 수 있으며, Spectrum-X는 이런 부분을 충족해 줄 수 있다고 합니다. NVIDIA 측에서 언급하는 Spectrum-X 도입 시 얻을 수 있는 장점은 다음과 같습니다.

●AI 클라우드 성능 향상
●표준 이더넷 연결 준수
●전력 효율 향상
●멀티 테넌트(multi-tenant) 성능 향상
●AI 패브릭 가시성 향상
●더 높은 AI 확장성
●더 빠른 네트워크 설정
●더 높은 복원력
●인프라 보안

항목 별로 보다 자세한 내용을 확인하고 싶다면 아래 링크를 참고해 보시기 바랍니다.

●Spectrum-X 데이터 시트 페이지 링크

■Isaac Nova Orin

<이미지 출처: NVIDIA>

오늘날 AI를 투입할 수 있는 현실적인 산업 현장은 경공업 분야가 한계였습니다. 중공업에서 AI를 활용하기 위해서는 현실 세계를 디지털로 표현하는 능력, 즉 디지털화가 필요합니다. 여기에 단순한 텍스트 지시나 사용자 명령을 애니메이션으로 변환할 수 있어야 하며, 변환된 모션이 어느 정도 현실성과 물리학적 근거가 있는지 파악할 수 있어야 합니다. 이런 환경적인 요인과 소프트웨어가 뒷받침되지 않는 한 중공업 분야에서는 AI를 적용하는 게 어려울 수밖에 없습니다.

NVIDIA에서는 NVIDIA Omniverse를 활용해 강화 학습 루프로 기반을 마련하고, 디지털화를 통해 AI 자동화를 현실로 가져왔습니다. 이러한 환경이 마련되었을 때 가장 큰 강점은 미리 특정 제품이나 사무실, 공장 등을 건설하기에 앞서 디지털로 빠르게 시뮬레이션해 볼 수 있다는 것입니다. 일종의 디지털 트윈이라고 볼 수 있겠죠. NVIDIA에서는 NVIDIA Omniverse에서 제공하는 다양한 소프트웨어 스택을 좀 더 간편하게 관리할 수 있는 클라우드 기반 통합관리 서비스, Omniverse Cloud를 선보였고요. Computex 2023 현장에서는 대만으로부터 10,000 km 떨어진 산타클라라에서 실시간으로 공장을 시각화하는 데모를 시연하기도 했습니다.

이렇듯 Omniverse와 AI 협업으로 AMR(Autonomous Mobile Robots, 자율운영 이동형 로봇)의 미래를 만들겠다는 포부를 밝히며 공개한 게 바로 Isaac AMR 레퍼런스 디자인 중 하나인 Nova Orin입니다. Nova Orin은 Jetson AGX Orin 유닛 2개를 탑재했으며, 인식, 탐색, 인간-기계 상호 작용을 처리하기 위해서 550 TOPS에 달하는 AI 컴퓨팅 성능을 제공합니다. 여기에 최대 6개의 카메라와 라이더 센서 3개, 초음파 센서 8개를 지원 등 다양한 기능을 결합해 완전한 자율 환경을 구성하는 것을 목표로 합니다.

AMR 생태계를 위한 소프트웨어 역시 중요한데, NVIDIA Isaac Sim은 Omniverse 기반 소프트웨어로, 확장할 수 있는 로봇 시뮬레이션 애플리케이션이면서 합성 데이터 생성 툴이기도 합니다. 사실적이고 물리적으로 정확한 가상 환경을 구현하는 걸 목표로 하며, 이를 통해서 AI 기반 로봇을 더 빠르고 효과적으로 개발하거나 테스트 및 관리할 수 있다고 하고요. 로컬 환경이나 클라우드 환경을 각각 지원하기에 멀리 떨어진 위치에서도 원격 조작이나 관리할 수 있다는 게 큰 강점 중 하나로 보이며, OTA 소프트웨어 관리 지원도 제공합니다.

3. AI 산업에서 중요한 GPU 서버, 구축 시 무엇을 고려해야 할까?

<이미지 출처: NVIDIA>

NVIDIA H100, 그리고 NVIDIA가 발표한 또 다른 AI 솔루션들에 대해 알아보았으니 이제는 AI 산업에서 GPU 서버가 왜 언급되는지, GPU 서버가 실제 AI 산업에서 어떤 의미를 지니는지 살펴볼 차례입니다.

흔히 CPU는 컴퓨터 전반의 연산 능력을, GPU는 3D 그래픽 처리를 위한 장치로 알고 있습니다. 그래서 CPU에서 부르는 코어와 GPU에서 부르는 코어는 명칭 자체가 같음에도 불구하고 작동 방식에서는 차이가 있는데요. CPU는 범용적인 목적으로 활용되어야 하는 만큼 다양한 명령어 세트를 지원해야 하고, 최종적인 처리를 담당하는 프로세서인 만큼 자연스레 덩치가 커지게 됩니다. 반대로 GPU는 그 목적이 분명하게 렌더링 연산에 집중되는 만큼 다양한 명령어 세트나 복잡한 연산 구조를 지닐 필요가 없습니다. 그래서 코어 1개를 늘리는 데에도 많은 고민과 복잡한 프로그래밍 지식을 요구하는 CPU와 달리, GPU는 일찌감치 병렬 연산에 최적화되어 상대적으로 훨씬 많은 코어 수를 지니게 됐습니다.

그렇다면 이야기를 바꿔서, 범용적인 작동 대신 특정 단순 작업만을 반복해야 하는 상황이라면 CPU와 GPU 중 누가 더 유리하게 작동할까요? 당연하게도 GPU 쪽입니다. 어떤 작업이냐에 따라 달라질 수 있겠지만, 압도적으로 많은 코어 수로 병렬 연산을 처리할 수 있다면 효율 면에서 훨씬 이득일 수밖에 없습니다. 특히 전력 대비 성능 효율이나 확장성을 생각한다면 아무래도 GPU 쪽이 더 유리한 구조입니다. 현재 각광 받는 생성 AI나 딥러닝(Deep Learning) 연구를 고려했을 때 수많은 반복 작업을 요구하는 워크로드임을 알 수 있는데, 그 말은 즉 구조적인 면에서 GPU가 태생적인 효율성을 가질 수밖에 없다는 뜻이기도 합니다.

<최초로 텐서코어를 탑재했던 NVIDIA Volta 아키텍처 / 이미지 출처: NVIDIA>

NVIDIA에서는 이런 구조적 이점과 더불어 조금 더 가속화하기 위해 텐서 코어(Tensor Core)를 추가했습니다. NVIDIA 그래픽 카드는 지포스 RTX 시리즈로 접어들면서부터 레이 트레이싱 처리를 위한 RT 코어와 AI 업스케일링 기술인 DLSS 지원을 위해 텐서 코어를 접목해 통합형 GPU를 제공해 왔습니다. 이런 구조적 특징은 엔터프라이즈 환경이나 산업군에서 쓰이는 전문가용 그래픽 카드에서도 고스란히 가져가는데요. 딥러닝 작업이나 AI 연산에서는 그래픽 처리에서 쓰이는 단정밀도(FP32) 연산보다 조금 더 잘게 쪼개진 8비트/16비트 정밀도 연산 효율이 굉장히 높은데, 텐서 코어를 활용한다면 이러한 작업에서 매우 높은 효율을 보입니다.

특히 이번 NVIDIA H100부터는 반정밀도(FP16) 연산보다 더 작은 단위인 FP8 연산까지 추가되었는데, 이런 발 빠른 적용이 NVIDIA 그래픽 카드가 AI 산업에서 매우 강력한 입지를 확보한 이유이기도 합니다. 이렇듯 GPU가 AI산업에 있어 매우 중요한 것임을 알게 되었으니, 이제 본격적으로 GPU 기반의 AI 인프라 구축 시 무엇을 중요하게 여겨야 하는지에 대해 알아보겠습니다.

■GPU 서버 도입 전 고려해야 할 사항

<이미지 출처 : ㈜한국인프라>

단순 반복 작업 영역에서의 높은 효율성과 CPU에 비해 상대적으로 뛰어난 확장성, 동급 성능 대비 전력 효율, 가속 처리 등 AI 시대를 맞이해서 GPU 서버가 주목받는 이유는 여러 가지를 들 수 있습니다. 그렇다면 GPU 서버를 도입하는 환경에 대해서도 고려하지 않을 수 없을 텐데요. 웹에서 모든 서비스를 제어할 수 있도록 클라우드 환경을 사용하느냐, 회사 내에 서버를 구성하는 온프레미스 환경을 사용하느냐 하는 문제를 먼저 짚고 넘어가야 합니다.

<이미지 출처: Aberdeen, Cloud vs. On-Premise: A Tale of Two Infrastructures>

두 컴퓨팅 환경은 장단점이 명확한 만큼 기업에서 어떤 솔루션이 필요한지 충분히 고민할 필요가 있습니다. 예를 들어 잦은 출장이나 재택근무, 온라인상에서 빠른 작업 처리를 요구하는 환경이라면 클라우드가 낫겠지만, 데이터 보안 측면이나 대규모 프로젝트에는 적합하지 않을 수 있습니다. 반면, 프로젝트 규모가 크고 다양한 내부 테스트가 필요하다면 아무래도 온프레미스 환경으로 자연스레 눈이 갈 수 있습니다. 만약 보안이 신경 쓰인다면 온프레미스 환경에서는 외부 회선을 제거 후 내부망으로 모든 작업을 할 수도 있고, IDC 센터에 AI 인프라를 구축하더라도 특정 IP에서만 접근을 허용하는 등 다양한 수단을 마련할 수 있겠죠.

<이미지 출처: CIO.com, What is code-to-cloud security intelligence?>

물론 서비스 차원에서의 보안을 따진다면, 클라우드 환경은 아무래도 외부 침입이나 갈취 같은 문제를 사전에 예방하기 위해서 다양한 장치와 기술력으로 무장하는 편이기에 편리할 수 있습니다. 온프레미스 환경은 자체적으로 보안 솔루션을 구축해야 할 뿐만 아니라 보안 전문가도 필요할 테니까요. 반면, 클라우드 환경은 항상 온라인상에 연결되어 있어야 한다는 문제가 따르고, 온프레미스 환경은 사내망으로 운영할 수 있다는 게 차별점이라고 할 수 있겠습니다.

<이미지 출처: quixy, Cloud vs On-Premise | The Battle of the Titans>

확장성이나 유연성, 데이터 백업과 복구 측면에서는 어떨까요? 클라우드 환경은 클라우드 자체에서 제공하는 솔루션으로 스케일 업이나 다운, 백업/복구 시스템을 활용하는 게 가능합니다. 어느 쪽이건 쉽고 간편하게, 빠르게 적용하는 게 가능하다는 뜻입니다. 반면 온프레미스 환경은 모든 걸 자체적으로 구성해야 합니다. 설령 외부 소프트웨어를 활용하더라도 이를 제대로 이해하고 다룰 수 있는 전문 인력이 필요해지며, 클라우드 환경에 비해 상대적으로 시간 소요도 길어질 수밖에 없습니다.

<이미지 출처: Columbus, The battle of Costs - On-premises vs Cloud-based Solutions>

마지막으로 고려해야 할 사항은 비용과 유지관리 측면입니다. 클라우드 환경은 기본적으로 서비스 제공자에게 사용한 만큼 비용을 지급하는 구독제 방식이 많습니다. 아무래도 초기 비용이 온프레미스 방식에 비해 적을 수밖에 없으며, 목적에 맞게 사용 후 계약을 종료한다면 추가로 내야 할 비용도 없어지게 됩니다. 관리 역시 서비스 제공자 측에서 전문 인력을 배정해 주기에 편리하죠. 반면, 온프레미스 방식은 초기 구성 비용이 큰 편이고 서버를 전문적으로 관리할 인력, 소프트웨어 라이선스 등 비용 측면에서 클라우드 환경에 비해 더 큰 비용을 내야 합니다.

앞서 언급했던 GPU 서버 도입 방향별 특성은 비단 GPU 서버가 아니더라도 일반적인 서버를 구성할 때 필연적으로 고민해 보아야 할 요소이기도 합니다. 비용과 시간, 향후 활용에 있어서 중요한 문제인 만큼 많은 고민이 필요한 부분이라고 생각합니다. 예를 들어 필요 요구사항, 즉 수요에 비해서 과도한 투자가 문제시될 수 있는데요. GPU 서버는 차후 그래픽 카드를 늘리거나 솔루션을 업그레이드하는 방향을 검토해 볼 수 있다는 강점이 있습니다. 따라서 초기부터 과도한 비용 투자와 인력 증설 등을 고려하기보다는, 인프라에서 필요한 수요를 적절하게 예측하는 게 중요하지 않을까 합니다.

반대로 원래 사업 계획에서 벗어나 AI를 신설하게 되는 경우, 클라우드로 모든 테스트와 인프라 수요를 감당해 버린다면 오히려 비용적인 부담감을 줄 수 있습니다. 이런 상황에서는 역으로 온프레미스 환경을 구축해 자유롭게 테스트하거나 알고리즘을 개발하는 게 바람직할 수 있습니다. 물론 기업에서 비용 충당에 문제가 없다면, 처음부터 DGX H100 같은 고급 사양으로 단번에 넘어가는 방향도 고려해 볼 수 있겠죠?

<이미지 출처 : ㈜한국인프라>

AI 인프라를 위해 GPU 서버를 온프레미스에 직접 구축하는 쪽으로 내부 의견이 기울었다면, GPU 서버 도입 과정에 대해서도 궁금증이 생길 수 있습니다. 그래서, NVIDIA DGX H100 시스템을 기준으로 도입 시 확인해야 할 사항에 관해서도 다뤄보겠습니다.

만약 NVIDIA DGX H100을 도입했는데 최초 설정이 굉장히 어렵고 복잡하다면, 막상 OS는 설치했는데 소프트웨어 설정에 문제가 생겨서 제대로 성능을 발휘하지 못한다면 여러모로 도입 초기부터 문제가 될 수 있습니다. NVIDIA DGX H100 시스템은 기본적으로 우분투 OS를 탑재해 두었으며, 미리 테스트하고 최적화해 둔 소프트웨어를 적용했기에 기본적인 몇 가지 설정만 마치고 나면 사용할 수 있습니다.

특히 NVIDIA DGX 시스템이 지닌 강점은 앞서 언급한, 누구나 쉽고 간편하게 설치하고 활용할 수 있는 편의성 뿐만 아니라, 유지보수 측면도 있습니다. 자체 AI 서비스 개발 과정에서 막히거나 기술문의가 필요할 수 있을텐데, 이 때 하드웨어 및 소프트웨어 관련 기술지원을 NVIDIA로부터 직접 받을 수 있다는 것, 그리고 매우 원활하고 빠르게 지원받을 수 있다는 것이 중요합니다. 하드웨어적인 이슈가 발생한다면 곧바로 교체하는 등 NVIDIA에서 최대한 신속하게 해결을 도와준다고 하며, 기본적인 유지보수 기간도 3년, 필요에 따라 1~5년 정도 기술지원 기간을 별도의 계약으로 연장할 수 있다는 점도 참고해 주시기 바랍니다.

NVIDIA에서는 AI 산업 육성을 위해 다양한 지원을 아끼지 않고 있습니다. 시스템 구성에서의 편의성이나 지원 면에서는 크게 걱정할 부분은 없어 보이는데요. 단, DGX H100은 8개 GPU로 구성하는 만큼 최대 소모 전력이 10.2 kW에 달할 수 있어 오히려 전력 부분이 예상치 못한 발목을 잡을 수도 있습니다. 아무래도 매우 높은 전력량을 요구하는 만큼, 기업 내에서 직접 운영하는 전산실이나 회사 내 전력량이 부족하다면, 이미 대규모 전력 공급 설비가 갖춰져 있는 IDC 센터에 NVIDIA DGX H100을 입고하는 편이 더 나을 수 있습니다.

4. 결론 : 가파르게 성장하는 AI 산업, 이미 버스가 출발했다고 여겨진다면 NVIDIA라는 급행열차에 올라타는 것을 고려해야

<이미지 출처 : NVIDIA>

Computex 2023 발표 현장에서 젠슨 황 CEO는 가속 컴퓨팅을 끊임없이 강조했습니다. 키노트 세션 역시 지난 60여 년간 전통적인 컴퓨팅 방식이 줄곧 자리 잡아 왔다면, NVIDIA에서 제시하는 가속 컴퓨팅 방식은 거대한 개념에서 데이터센터들이 겪는 전력 제한 문제를 해결하고 같은 비용에서 한층 더 뛰어난 처리 성능을 가져올 수 있다는 내용으로 채워졌습니다. GPU 서버가 비싸다고 하지만, 실제로 얻을 수 있는 성능과 전력 측면에서 비교해 본다면 전통적인 CPU 기반 서버보다 뛰어나다는 내용이 골자였습니다.

AI 산업은 여전히 걸음마 단계라고 여겨지던 시기가 있었습니다. 실체가 없는, 불확실한 산업으로 여겨졌던 AI 산업이 현실로 다가오기까지는 제법 오랜 시간이 걸리기도 했습니다. 하지만 ChatGPT의 여파로 AI 산업이 실제로 소비자 곁으로 다가오기 시작하면서 관련 산업 또한 급부상하기 시작했습니다. 오랫동안 AI 분야에 상당한 투자를 해왔던 NVIDIA가 AI산업 발전의 수혜를 가장 많이 받는 기업으로 떠오른 것은 결코 우연이 아닐 것입니다.

아직은 글로벌 시장과 비교해서 그 규모가 작은 국내 AI 시장이지만, NVIDIA GPU로 AI 인프라가 발전을 거듭해 온 덕분에 다양한 AI 스타트업이 생겨났고, 대기업 뿐만 아니라 정부기관 및 학계에서도 본격적으로 AI 연구 개발에 박차를 가하고 있습니다. 만약 우리 회사가 AI 산업 전선에 뛰어들고자 하는 목표가 있다면, 강력한 하드웨어와 소프트웨어 스택으로 무장한 NVIDIA의 솔루션이 AI가 그리는 지평선 너머의 장미빛 환상의 섬으로 데려다 줄 급행열차가 될 수 있을 것입니다.

여기까지 Computex 2023과 지난 쉐어드IT NVIDIA H100 GPU 웨비나 내용을 요약해 보았습니다. Computext 2023의 NVIDIA 키노트 세션, 그리고 한국인프라에서 진행한 쉐어드IT NVIDIA H100 GPU 웨비나의 전체 내용이 궁금하신 분들은 아래의 영상을 참고해 주세요.

<㈜한국인프라 NVIDIA H100 GPU 웨비나 다시보기>

더불어 NVIDIA GPU 서버 및 NVIDIA DGX 시스템에 대한 보다 자세한 상담이 필요하시다면 아래의 한국인프라 전문가에게 문의해 보실 것을 권합니다.

●㈜한국인프라 NVIDIA사업팀 / 이메일: [email protected] / 연락처: 02-6204-5029

마지막으로, 이번 콘텐츠 내용을 토대로 간단한 퀴즈 이벤트를 진행합니다. 아래의 퀴즈 문항을 참고하시어 댓글로 정답을 남겨주세요. 정답을 맞추신 분들 중 10명을 추첨해 스타벅스 카페 아메리카노 기프티콘을 드립니다. 콘텐츠 내용을 꼼꼼히 읽으신 분들은 쉽게 맞추실 수 있을거에요!

퀴즈 1 : 다음 중 NVIDIA GPU 서버 도입 시 고려해야 할 사항으로 옳지 않은 것은?

1) 파일럿 형태의 AI 프로젝트같은 작은 단위의 AI 연구 개발에는 클라우드에서 GPU 자원을 활용하는 것이 낫다

2) 규모가 크고 복잡한 AI 모델 구축이나 반복적인 학습 및 테스트가 필요하다면 온프레미스에 GPU 서버를 구축하는 것이 좋다

3) 사내에 인프라 관리자, 보안 전문가를 보유하고 있다면 온프레미스에 GPU 서버 구축을 추천한다

4) 온프레미스에 구축할 경우 항온항습 및 최소 10.2kW 이상의 전력을 갖춘 전산실 혹은 IDC센터가 필요하다

5) NVIDIA DGX에 대한 기술지원은 NVIDIA로부터 직접 받을 수 있으며, 기본 유지보수 기간은 1년이다

퀴즈 2 : 다음 중 Computex 2023에서 NVIDIA가 새롭게 발표한 AI 솔루션에 대한 내용 중 옳지 않은 것은?

1) DGX GH200 : CPU와 GPU가 합쳐진, 그레이스 호퍼 슈퍼칩을 256개 탑재한 솔루션으로, FP8 연산 성능 기준 1 EFLOPS의 슈퍼컴퓨팅 성능 발휘

2) MGX 플랫폼 : 엣지에서 슈퍼컴퓨팅 영역까지 다양한 목적으로 활용할 수 있는 모듈식 서버 솔루션

3) Spectrum-X : 보다 강력한 네트워크 성능이 필요한 DGX 시스템을 위해 탄생한 네트워킹 플랫폼으로, NVIDIA Sepctrus-4 이더넷 스위치에 NVIDIA GPU H100이 결합된 솔루션

4) Isaac Nova Orin : NVIDIA가 AMR(자율운영 이동형 로봇)을 위해 만든 새로운 칩으로, Jetson AGX Orin 2개를 탑재했고 최대 6개의 카메라와 3개의 라이더 센서, 8개의 초음파 센서를 통해 완전한 자율운영 로봇 환경을 목표로 함

※ 퀴즈 이벤트 종료되었습니다. 10명 추첨인데 11명이 참여해 주셨기에 11명 모두 커피 기프티콘 드리겠습니다.

이 콘텐츠가 AI 산업의 현주소, 그리고 NVIDIA AI 솔루션에 관해서 조금이나마 이해를 도울 수 있었기를 바랍니다. 끝!

AI 급행열차에 타라! NVIDIA H100 + AI 솔루션

12개의 댓글이 있습니다.

쪽지 보내기

댓글 남기기

쪽지 보내기

댓글 남기기

쪽지 보내기

댓글 남기기

쪽지 보내기

댓글 남기기

쪽지 보내기

댓글 남기기

쪽지 보내기

댓글 남기기

쪽지 보내기

댓글 남기기

쪽지 보내기

댓글 남기기

쪽지 보내기

댓글 남기기

쪽지 보내기

댓글 남기기

쪽지 보내기

댓글 남기기

쪽지 보내기

댓글 남기기

댓글 남기기

클라우드마켓

마켓플레이스

브랜드별 제품

AI 급행열차에 타라! NVIDIA H100 + AI 솔루션

12개의 댓글이 있습니다.

댓글 남기기

댓글 남기기

댓글 남기기

댓글 남기기

댓글 남기기

댓글 남기기

댓글 남기기

댓글 남기기

댓글 남기기

댓글 남기기

댓글 남기기

댓글 남기기

댓글 남기기