성공적인 AI 프로젝트를 위한 데이터센터 GPU, NVIDIA A100

성공적인 AI 프로젝트를 위한 데이터센터 GPU, NVIDIA A100

데이터 과학자들은 어렵게 개발한 AI 알고리즘의 정확도를 높이기 위해 대량의 데이터를 학습시킵니다. 하지만 비정형 데이터의 급격한 증가로 인해 학습에 필요한 데이터의 양 뿐만 아니라 전체 데이터 용량 역시 폭발적으로 증가해 AI의 딥러닝을 위한 컴퓨팅 성능은 일반적인 데이터센터의 컴퓨팅 파워로는 많이 부족합니다. 게다가 시간도 오래 걸리는 문제가 있죠.

그래서 많은 데이터 과학자들은 퍼블릭 클라우드의 AI 전용 서비스를 활용해 필요할 때마다 딥러닝 학습을 통해 AI 알고리즘의 정확도를 높여나가고 있습니다. 덕분에 AI 프로젝트에 대한 허들이 많이 낮아졌고 자사 서비스에 AI를 접목시켜 비즈니스 경쟁력을 강화시키려는 기업들이 많이 늘어났습니다.



AI 프로젝트 대중화의 일등공신인 퍼블릭 클라우드 역시 자기들의 데이터센터에서 고객들의 데이터를 학습시킵니다. 클라우드 기업들이 고객들에게 더 빠른 데이터 학습 및 예측 서비스를 제공하기 위해 필요한 것이 바로 AI 학습에 최적화된 소프트웨어 스택과 고성능 GPU입니다. 그리고 데이터 주권에 대한 이슈로 인해 클라우드 서비스를 이용하고 싶지 않은 기업들은 자사의 데이터센터에 AI 학습을 위한 시스템을 구축해야 합니다. 

이번 콘텐츠에서는 클라우드로 AI 서비스를 제공하려는 기업, 그리고 직접 AI 프로젝트를 위한 시스템을 구축하고자 하는 기업들이 참고하면 좋을, AI 및 초고성능 HPC에 최적화된 NVIDIA 솔루션을 소개합니다. 아젠다는 아래와 같습니다.


1. AI 프로젝트를 위해 고성능 데이터센터 GPU가 필요한 이유

2. AI 워크로드에 최적화된 NVIDIA A100 특징

3. 성공적인 AI 프로젝트를 위한 NVIDIA A100의 가치




이 콘텐츠는 NVIDIA 국내 총판 BayNex의 지원으로 제작되었습니다.





1. AI 프로젝트를 위해 고성능 데이터센터 GPU가 필요한 이유



AI와 데이터 과학은 전 업종에 걸쳐 비즈니스를 탈바꿈시키고 있습니다. 이커머스 분야에서 이제 개인화된 추천 서비스는 필수처럼 여겨지고 있습니다. 금융에서도 고객 경험을 한층 더 끌어올리기 위해 AI 기반 챗봇 서비스를 제공하고 있으며 이상 거래 탐지를 통해 각종 금융 사고를 예방하는 데에도 AI가 활용됩니다.

통신 분야에서는 더 나은 품질의 네트워크 서비스를 제공하기 위해 SDN 기반의 효율적인 운영에 더해 사이버 보안에 AI를 활용하고 있죠. 그리고 광고업계에서는 AI를 활용한 리타게팅은 기본이요 검색창에서 특정 상품을 검색한 사용자 별로 맞춤화된 광고를 노출함으로써 광고 효율을 높이는 데에 집중하고 있습니다.

이 외에 헬스케어 분야의 환자 정보를 토대로 한 질병 예측, 제조 분야에서의 예지 정비 및 수요 예측, 자동차 업계의 자율주행 등 AI는 전 산업 분야에서 맹활약하고 있습니다. 이제 AI를 어떻게 잘 활용하느냐가 기업의 비즈니스 경쟁력을 좌우한다고 봐도 될 정도입니다.



그렇다면 이러한 AI 프로젝트에는 왜 초고성능의 컴퓨팅 파워가 필요할까요? 일단 가장 큰 이유는 데이터의 양이 증가되고 유형이 다변화됨에 따라 AI가 분석해야 할 데이터가 너무도 많기 때문입니다. 데이터가 늘어난다고 AI 학습 시간이 함께 증가된다면 AI 기반 서비스 품질은 점점 떨어지겠죠. 시간이 지날수록 AI가 학습해야 할 데이터는 늘어나고, 사용자들은 더 빨리 결과를 보여주길 원하기 때문에 이 간극을 줄이기 위해서라도 더 강력한 컴퓨팅 파워가 필요합니다.

AI의 주요 활용 분야 중 하나가 자연어 처리(NLP)입니다. 문맥을 교정하고, 특정 단어의 연속된 사용을 파악해 핵심 내용을 빠르게 파악하고, 보다 정교한 번역 서비스를 제공하기 위해 GPT-2, GPT-3 부터 BERT라는 쌍방향 자연어 이해 AI 모델까지 발전해왔는데, 이러한 NLP를 위한 AI 모델을 위해 필요한 컴퓨팅 성능은 선형적으로 꾸준히 증가하고 있습니다. 

이처럼 AI 수준이 높아진다는 것은 그만큼 데이터 학습량이 많다는 것이고, AI의 반응이 빠르다는 것, 결과물을 빨리 빨리 내놓는다는 것은 곧 AI와 연결된 시스템을 통해 빠르게 데이터를 예측해낸다는 것이므로, AI 활용도가 다양해지고 많아질수록 더 강력한 컴퓨팅 파워가 필요해질 것이라고 쉽게 예상할 수 있습니다.



NVIDIA는 AI가 학습하는 데이터의 양은 계속 폭발적으로 증가할 것으로 예측하고 있습니다. 그리고 이렇게 증가하는 데이터의 학습, 분석, 그리고 결과 예측을 원활하게 할 수 있는, AI를 위한 데이터센터는 이제 새로운 국면에 접어들었다고 보고있는데요. 이전 대비 20배 이상의 성능과 통합된 AI 학습 및 추론 가속화, 그리고 유연한 확장성을 갖춘 데이터센터만이 빠르게 발전하는 AI를 안정적으로 지원할 수 있다고 보고 새로운 차원의 GPU를 개발했습니다.



그래서 탄생한 데이터센터 GPU가 바로 NVIDIA A100입니다. 2020년 5월에 발표된 A100은 서버 메인보드에 온보드 형태로 장착되는 A100 SXM(SXM), 그리고 PCIe 4.0 인터페이스를 활용하는 카드 형태의 A100 PCIe 두 가지 형태로 제공됩니다. A100 PCIe는 일반적인 서버에서 쉽게 사용할 수 있는 형태이긴 하지만(물론 호환되는 서버만 가능) 온보드 형태인 SXM보다 발열 처리와 전력소모량에 한계가 있기 때문에 A100 SMX 성능의 최대 90%를 유지하는 것을 목표로 개발되었다고 합니다.

A100 SXM은 NVIDIA가 서버 제조사와 함께 검증하고 최적화시킨 서버 플랫폼, HGX, DGX 서버에 최대 8개까지 장착되어 AI를 위한 초고성능 컴퓨팅 파워를 제공합니다. 이에 대한 내용은 이어서 좀 더 자세히 다뤄보겠습니다.




2. AI 워크로드에 최적화된 NVIDIA A100 특징 

.

 1) NVIDIA A100 아키텍처 특징



NVIDIA A100은 Ampere 아키텍처에 적용된 3세대 Tensor 코어의 새로운 연산모드인 TF32를 지원합니다. 이전 세대인 Volta 아키텍처에 적용된 Tensor 코어의 FP32(부동소수점연산) 연산보다 10배 빠른 TF32 연산 모드가 추가되었고, 기존의 FP32와 동일하게 작동합니다. 게다가 Sparsity(희소 행렬)로 변환해도 정확도가 떨어지지 않기 때문에 최대 20배의 성능을 코드 변경 없이 누릴 수 있습니다.



좀 더 구체적으로 살펴볼까요? NVIDIA A100은 V100과 비교 시 BERT 대량 학습에서 FP32 성능은 6배, FP16 성능은 3배 향상되었습니다. 그리고 BERT 대량 추론에서도 7배의 성능이 향상되었습니다. 게다가 지속적으로 확대되고 있는 AI 신경망의 크기와 늘어나는 매개 변수의 수를 안정적으로 감당해내기 위해 초당 600GB의 GPU 간 통신이 가능한 3세대 NVLink를 지원합니다.



또 다른 특징은 하나의 A100에서 최대 7개의 GPU를 지원한다는 것입니다. A100 PCIe 카드 하나를 꽂으면 서버 당 최대 7명의 데이터 과학자가 각기 다른 AI 프로젝트를 수행할 수 있다는 것입니다. 프로젝트 별로 사양을 달리 설정할 수 있고 베어메탈, 컨테이너(도커, 쿠버네티스), 가상화 환경까지 다양한 유형의 서버 환경을 지원함으로써 AI 프로젝트를 보다 효율적으로 수행할 수 있게 합니다.






2) NVIDIA A100 기반 서버 플랫폼 HGX A100



A100은 서버에 최대 8개의 PCIe 카드를 꽂을 수 있고, SXM4(A100 GPU 4개) 혹은 SXM8(A100 GPU 8개) 폼팩터의 HGX 서버 플랫폼으로 제공됩니다. NVIDIA 인증 서버라고 볼 수 있는 HGX의 특징에 대해 좀 더 자세히 살펴보겠습니다.



앞서 PCIe는 인터페이스의 성능 한계로 인해 SXM 폼팩터 대비 발열과 전력 효율면에서 불리하기 때문에 SXM의 최대 성능의 90%까지만 발휘할 수 있다고 말씀드렸는데요. 가장 왼쪽의 그래프와 같이 HPC(High Performance Computing) 애플리케이션에서 A100 PCIe의 성능은 A100 SXM 대비 90% 정도의 성능을 보이고 있습니다.

그리고 BERT 학습 성능의 경우 A100 SXM4 HGX A100은 4개의 A100 PCIe 보다 1.4배, A100 SXM8 HGX A100은 8개의 A100 PCIe 보다 1.5배 성능을 기록했습니다. 즉, 다수의 A100 GPU를 활용할 계획이라면 PCIe보다 SXM 형태인 HGX 서버가 더 유리하다는 결론이 나옵니다.





 3) AI를 위한 궁극의 시스템, NVIDIA DGX A100



그리고 HGX보다 더 강력한 NVIDIA 서버가 바로 DGX A100입니다. HGX A100보다 GPU 메모리는 무려 8배에서 14배가 더 많은 320GB ~ 640GB가 장착되었으며 NVLink를 통한 GPU 간의 대역폭은 초당 4.8TB로 600GB인 HGX대비 8배나 대역폭이 많습니다. 이를 바탕으로 최대 5petaFLOPS의 AI 성능을 발휘하는 DGX A100은 GPU 당 7개를 구현하는 MIG(Multi-Instance GPU)를 통해 최대 56개의 GPU를 물리적으로 격리된 자원으로 제공, 56명의 데이터 과학자가 각기 다른 AI 프로젝트를 동시에 수행할 수 있도록 합니다.


DGX A100의 성능은 이전 세대인 Volta 아키텍처가 적용된 DGX V100과 비교했을 경우 HPC 성능 2배, TF32 기반 AI 학습 성능 6배, FP16 기반 학습 성능 3배, AI 추론 성능은 7배 향상되었습니다. 아키텍처가 발전함에 따라 추가된 하드웨어 성능에 더해 NVIDIA의 AI 및 HPC 워크로드에 최적화된 소프트웨어인 NGC(NVIDIA GPU Cloud)을 통해 DGX A100은 AI 학습 및 애플리케이션 개발에 필요한 모든 것을 갖춘 플랫폼이라고 할 수 있겠습니다.



하나의 DGX A100 서버 성능도 무시무시한데, 이 DGX A100을 4개 노드로 쌓아올려 하나의 랙으로 구성할 수 있고, 이 랙을 두개 연결해서 8노드의 DGX POD을 통해 최대 40 petaFLOPS라는 AI 성능을 제공할 수 있습니다. DGX POD 랙 하나 또는 두개로 최첨단 AI 센터를 만들 수 있다는 것입니다.


만약 DGX A100 4개 노드로 구성된 랙을 4개 배치할 경우 16개의 DGX A100 시스템 성능을 구현하기 위해서는 하나의 랙에 16개의 노드를 장착한 랙 22개, 총 350개 CPU가 필요합니다. 게다가 비용은 16 DGX A100 시스템이 $3.3M, 350개 CPU로 구성된 시스템이 $23M으로 NVIDIA 쪽이 1/7 수준으로 저렴하며 전력 소비량은 1/3에 불과합니다. AI를 위한 고성능 시스템을 구현함에 있어서 GPU의 위력을 새삼 실감할 수 있는 부분입니다.



그리고 이 DGX POD는 슈퍼컴퓨터로 활용되고 있습니다. 글로벌 TOP 500 슈퍼컴퓨터 중 6위를(장표는 7위이지만 2021년 6월 기준 6위, 자세한 내용은 여기서 확인 가능) 기록한 DGX A100 기반 슈퍼컴퓨터 Selene(셀린)은 DGX A100의 AI 성능인 5petaFlops의 559배인 2,795petaFLOPS(약 2.8 exaFLOPS)의 성능을 발휘합니다.

실로 상상하기 어려운 엄청난 슈퍼컴퓨터 Selene은 대규모 언어 모델링을 비롯해 자율 주행 자동차, 차세대 그래픽 렌더링, 양자 화학과 유전체과학 등 우리의 삶을 한 단계 더 진일보 시켜줄 수 있는 다양한 분야에 활용되고 있습니다. DGX A100 기반 슈퍼컴퓨터 Selene에 대한 보다 자세한 내용이 궁금하신 분들은 아래 링크에서 확인해 보시기 바랍니다.






3. 성공적인 AI 프로젝트를 위한 NVIDIA A100의 가치



NVIDIA는 강력한 성능의 GPU인 A100을 통해 가장 높은 컴퓨팅 파워를 요구하는 대표적인 워크로드인 대량의 데이터 분석, AI 학습 및 추론, 시뮬레이션 분석을 가속화하여 기업의 경쟁력 강화를 돕습니다. 앞서 첫 번째 콘텐츠에서 소개한 A10, A16에 이어 이번 A100까지 Nvidia Ampere 아키텍처 기반의 데이터센터 GPU들은 개인 업무부터 서버 워크로드, 나아가 슈퍼 컴퓨터와 클라우드까지 GPU 기반 가속화 기술을 통해 기업의 업무 생산성 강화에 기여하고 있습니다.



특히 빅데이터 분산 처리를 위한 오픈소스 플랫폼인 Spark의 경우 2.0 버전까지는 데이터 준비, 즉 데이터 가공 및 전처리를 통해 분석을 위한 데이터셋을 준비하는 워크로드와 분석 및 예측을 위한 데이터 모델링 학습 워크로드가 분리되어 있었고, 이 두 워크로드는 공유 스토리지를 통해 데이터를 주고받았습니다. 각각의 워크로드로 서로 나눠져 있었기 때문에 Spark가 데이터 소스로부터 데이터를 수집 및 가공 후 공유 스토리지에 전달하고, 공유스토리지는 다시 전처리된 데이터를 데이터 모델 검증을 위한 학습 워크로드에 전달하는 단계를 거쳐야 하기 때문에 예측 모델을 활용한 결과물을 도출하기까지 시간이 꽤 오래 걸리는 단점이 있었죠.

하지만 Spark 3.0 버전에 이르러 데이터 준비 워크로드에 GPU 가속 기술을 활용함으로써 더 빠르게 데이터 가공 및 전처리 워크로드를 처리할 수 있게 되었습니다. 데이터 사이언스 분야의 워크로드 전 과정을 GPU를 통해 실행하고 통합 관리할 수 있는 오픈소스 라이브러리인 RAPIDS를 통해 데이터 과학자는 며칠이 걸리던 데이터셋 준비 -> 학습 -> 예측 -> 모델 배포까지의 전 과정을 단 몇 분 수준으로 대폭 단축시킬 수 있게 되었습니다. 그리고 이것이 가능하도록 가장 큰 역할을 하는 것이 바로 NVIDIA 데이터센터 GPU A100입니다.



나아가 NVIDIA는 NGC(NVIDIA GPU Cloud)를 통해 언제 어디서든 빠르게 AI를 개발하고 학습하고 배포할 수 있도록 지원합니다. 헬스케어, 스마트 시티, 대화형 AI, 로보틱스 등 다양한 분야에 바로 활용할 수 있는 AI Toolkit과 SDK를 암호화해서 안전하게 제공합니다.

나아가 기업은 AWS, Azure, GCP, Alibaba Cloud, Oracle Cloud와 같은 퍼블릭 클라우드, Dell EMC, HPE, Lenovo, Supermicro 등 온프레미스 데이터센터용 서버, 그리고 하이브리드 클라우드와 멀티 클라우드 미 엣지 단에 이르기까지 IT 인프라 전 분야에 걸쳐서 NGC를 활용해 보다 간편하고 빠르게 AI 프로젝트를 수행할 수 있습니다.


앞서 AI가 다양한 분야에 활용되며 기업의 비즈니스를 혁신하고 있다고 말씀드렸는데요. 실제 우리 주변에서도 AI, 특히 대화형 AI를 통해 생활 전반에 걸쳐 많은 도움을 얻고 있는 사례를 쉽게 찾아볼 수 있습니다. 하루에 2억회 이상 진행되는 화상회의에서 AI는 자동으로 회의록을 남기고 자막을 달고 실시간 번역 기능을 제공하고 있습니다. 또한 콜센터에서는 AI가 발신자의 음성을 분석해 음의 높낮이 및 말하는 톤과 문맥으로 고객의 상태를 예측하고 요청하는 바가 무엇인지를 빠르게 캐치하는 역할로 상담원들을 돕고 있죠.

또한 AI 스피커는 단순히 날씨와 스케줄을 알려주는 데에 그치지 않고 사용자의 요청이 있기 전에 능동적으로 사용자의 패턴을 학습해 똑똑한 비서 역할을 수행하고 있습니다. 그리고 상점에서는 가상 피팅룸부터 고객의 체형을 분석해 어울리는 상품을 추천해 주며 자동차에 탑재된 주행보조 시스템은 운전자보다 더 안정적으로 차선을 유지하고 앞차와의 거리를 벌리고, 돌발 상황에 능숙하게 대처함으로써 운전자의 안전한 주행을 돕습니다. 4차 산업혁명의 핵심이라고 일컬어지는 AI는 이렇게 다양한 분야에 적용되어 우리의 삶을 더욱 편리하게 바꿔주고 있습니다.



그리고 AI가 더욱 빠르게 발전하기 위해서는 그만큼 강력한 컴퓨팅 파워가 뒷받침되어야 하며, 이는 CPU만으로 감당하기에는 너무도 버겁습니다. 그래서 시작된, CPU만으로 처리하기 버겁던 프로세스를 지원하는 서브 역할에 그쳤던 GPU가 이제는 CPU보다 더 중요한 메인 역할을 차지하게 되었습니다.

우리가 주변에서 쉽게 접할 수 있는 게이밍을 위한 GeForce 그래픽카드부터 데이터센터 GPU와 같은 하드웨어를 위와 같이 다양하게 갖추고 있습니다. 이뿐만 아니라 NVIDIA GRID, Omniverse, NGC 등 GPU 활용도를 향상시켜주는 다양한 소프트웨어 스택을 갖춘 NVIDIA는  개인용 데스크탑부터 워크스테이션, 데이터센터 GPU와 전용 서버 플랫폼, 그리고 클라우드와 엣지 단까지 컴퓨팅 성능 향상을 위한 End to End 플랫폼을 제공할 수 있는 유일한 기업이자 AI 컴퓨팅 분야에 있어 가장 앞서가는 기업이기도 합니다.



포스트 코로나 시대, 달라진 업무 환경을 원활히 지원하기 위한 IT 인프라는 분명 클라우드가 앞으로도 대세일 가능성이 높습니다. 하지만 데이터 자주권, 보안, 기업 비즈니스 특성 및 기타 많은 이유로 인해 클라우드가 아닌 온프레미스 데이터센터를 운영해야 한다면, 그리고 이 데이터센터에서 VDI, 가상 워크스테이션, AI 프로젝트를 위한 업무 환경을 구현해야 한다면 우선적으로 NVIDIA 데이터센터 GPU를 고려해 보실 것을 추천하고 싶습니다. 


여기까지 두 편에 걸쳐서 NVIDIA의 최신 데이터센터 GPU에 대해 살펴봤습니다. 이번 NVIDIA 콘텐츠가 임직원들의 유연한 업무 환경 지원을 위해 데이터센터의 성능 향상과 적합한 솔루션 제공이라는 두 마리 토끼를 모두 잡고 싶으신 분들께 조금이나마 도움이 되었기를 바랍니다. 끝!


9개의 댓글이 있습니다.

2년 이상 전

GPU 전문회사 n당에서 만든 GPU이면
좋을 겁니다.

Reply

댓글 남기기

댓글을 남기기 위해서는 로그인이 필요합니다.

로그인 회원가입

2년 이상 전

좋은정보 감사합니다.

Reply

댓글 남기기

댓글을 남기기 위해서는 로그인이 필요합니다.

로그인 회원가입

2년 이상 전

좋은 내용이네요
참고할께요

Reply

댓글 남기기

댓글을 남기기 위해서는 로그인이 필요합니다.

로그인 회원가입

3년 이하 전

좋은정보 잘보았습니다. 감사합니다

Reply

2년 이상 전 | 쉐어드아이티 | 031-212-1710

네, 봐주셔서 감사해요!

Reply

댓글 남기기

댓글을 남기기 위해서는 로그인이 필요합니다.

로그인 회원가입

3년 이하 전

내용 잘 봤습니다.

Reply

2년 이상 전 | 쉐어드아이티 | 031-212-1710

넵, 도움이 되셨기를

Reply

댓글 남기기

댓글을 남기기 위해서는 로그인이 필요합니다.

로그인 회원가입

3년 이하 전

요즘은 정말 GPU가 대세네요~~~

Reply

2년 이상 전 | 쉐어드아이티 | 031-212-1710

일반 사람들에게 GPU는 게임용으로 인식되어 있을텐데, 저도 이번에 GPU의 활용 범위가 AI를 비롯해서 이렇게나 폭넓게 사용된다는 것을 처음 알게됐어요.

Reply

댓글 남기기

댓글을 남기기 위해서는 로그인이 필요합니다.

로그인 회원가입

댓글 남기기

댓글을 남기기 위해서는 로그인이 필요합니다.

로그인 회원가입