AI의 혁신을 가속하는 고성능 스토리지의 역할은?

AI의 혁신을 가속하는 고성능 스토리지의 역할은?

생성형 AI를 기업 환경에 사용하려는 시도가 늘어나면서, AI가 가진 잠재력을 최대한 끌어낼 수 있는 기반 기술들의 중요성이 커지고 있습니다. 생성형 AI는 대규모 데이터를 활용해 혁신적인 솔루션을 제공하지만, 이러한 강점을 제대로 누리려면 매우 고성능의 인프라가 필요하죠. 이 AI를 위한 인프라에서 GPU 못지 않게 중요한 것이 스토리지입니다. GPU가 학습할 데이터를 빠르게 GPU 서버로 전달해주고, 그 결과물을 다시 받아서 적재적소에 빠르게 공급해 줄 수 있어야 할 테니까요.




AI 활용에 있어 매우 중요한 스토리지, 그렇다면 기업들은 어떤 스토리지를 선택해야 할까요? 일단 AI가 목적이니 성능이 좋아야겠죠? 여기서 말하는 성능은 빠르게 데이터를 읽어들일 수 있는 Read 성능입니다. AI는 대량의 데이터를 반복적으로 학습하기 때문에 엄청나게 많은 데이터를 읽어야 하는데요.

그렇기 때문에 스토리지의 Read 성능이 좋다는 것은 그만큼 AI 모델이 데이터 학습 시간을 단축시킬 수 있다는 것이고, 이것은 AI가 제한된 시간 내에서 더 많은 데이터를 학습할 수 있다는 의미이기도 합니다. AI의 성능은 얼마나 많은 데이터를 학습했냐에 달렸기에, 이 학습시간을 단축시키기 위해 기업들은 더 높은의 GPU에 투자하고 있죠. 고성능 스토리지가 중요한 이유 역시 마찬가지입니다.


그래서 이번 콘텐츠에서는 AI를 비롯해 초 고성능 컴퓨팅 시스템에 널리 활용되어온 하이엔드 스토리지, IBM SSS(Storage Scale System)을 소개하려고 합니다. 왜 AI에 고성능 스토리지가 필요한지, AI를 위한 GPU 팜에 왜 최신 IBM SSS 6000 스토리지가 제격인지 자세히 알아보겠습니다. 어젠다는 아래와 같습니다.


 어젠다

 1. AI 시대에서 고성능 스토리지가 필수인 이유는?

 2. AI GPU 팜 구축에 적합한 스토리지가 갖춰야 할 핵심 요건은?

 3. AI GPU 팜에 딱 알맞은, IBM SSS 6000 스토리지의 주요 특징

 4. IBM Storage Scale System 스토리지 구축 사례

 5. 결론: AI, HPC 환경에서 최적화된 스토리지, 구축도 AI에 진심인 기업에 맡겨야

  코오롱 베니트 전문가 상담 신청

  • 목차 별 링크를 클릭하면 해당 내용의 첫 부분으로 이동합니다.





이 콘텐츠는 IBM 스토리지 한국 총판, 코오롱베니트의 지원으로 제작되었습니다.








1. AI 시대에서 고성능 스토리지가 필수인 이유는?


AI 기술의 발전은 우리가 다루는 데이터의 규모와 처리 방식에 큰 변화를 가져왔습니다. AI는 그 자체로 대량의 데이터를 활용하여 학습하고 예측하는데, 이 데이터를 얼마나 빠르고 효율적으로 다룰 수 있느냐가 AI 성능의 핵심이거든요. 특히, AI 모델의 학습과 추론 과정에서 스토리지가 병목 현상 없이 원활하게 데이터를 제공하는 것이 매우 중요한데, 왜 그런지를 이해하기 위해 AI가 데이터와 어떻게 상호작용하는지 좀 더 자세히 살펴봅시다.


 1) AI와 데이터, 스토리지의 상관관계





AI 모델은 대량의 데이터를 학습합니다. 딥러닝 모델의 경우, 이미지 인식 AI 모델을 만들기 위해서는 수백만 장의 이미지가 필요하고, 이 이미지들은 모델이 패턴을 학습할 수 있도록 연속적으로 입력돼야 하죠. 데이터가 많을수록 AI는 더 정교하게 학습하며, 예측 정확도 역시 높아집니다. 이 이미지들을 저장소 중 가장 성능이 뛰어난 메모리에 올릴 수 있다면 참 좋을 텐데, 안타깝게도 메모리는 용량이 적고 단가가 비싸기 때문에, 이런 AI의 데이터 학습용 저장소로 사용할 수는 없습니다. 그래서 대용량 스토리지가 필요하고, 이 스토리지에서 빠르게 AI 시스템으로 이미지를 가져오는 과정이 필요합니다.


예를 들어, 자율주행 자동차의 AI 시스템은 도로에서 실시간으로 수집되는 수천 개의 센서 데이터를 처리해야 합니다. 카메라, 레이더, 라이다 등의 장치에서 발생하는 데이터는 시시각각 변하며, 이런 많은 데이터를 AI 시스템이 실시간으로 분석해야 차량이 안전하게 운행할 수 있겠죠? 이러한 자율주행 자동차의 AI 시스템이 실시간으로 데이터를 분석하고 의사결정을 내릴 수 있는 이유는 고성능의 스토리지가 대량의 데이터를 안정적으로 공급해 주기 때문입니다.



 2) AI 연구 사례: 이미지넷 대회



<이미지 출처: 나무위키>


AI 기술 발전에 중요한 계기가 되었던 이미지넷(ImageNet) 대회를 살펴보면, AI와 데이터의 관계를 더 명확하게 이해할 수 있습니다. 이미지넷은 수백만 장의 이미지로 구성된 데이터셋을 사용하여 AI가 얼마나 정확하게 이미지를 분류할 수 있는지를 겨루는 대회인데요. 이 대회에서 높은 성능을 보인 AI 모델들은 모두 방대한 데이터를 학습해 왔습니다. 초기 AI 모델은 상대적으로 적은 데이터로 학습했지만, 최근 몇 년 동안 딥러닝 모델은 수십억 장의 이미지를 학습하며 성능이 엄청나게 올라갔죠.


이미지넷 대회와 같은 AI 연구는 대규모 데이터와 고성능 스토리지가 필수라는 사실을 보여줍니다. 데이터는 크기가 클 뿐 아니라, 실시간으로 불러와서 처리해야 하므로, 데이터를 빠르게 공급할 수 있는 스토리지가 없다면 AI 모델의 학습 속도는 크게 저하되겠죠? 이를 극복하기 위해 GPU가 활용되는데, GPU는 초당 수십 기가바이트의 데이터를 처리할 수 있지만, 스토리지가 이를 뒷받침하지 못하면 성능이 발휘되지 않습니다. 따라서 AI가 얼마나 많은 데이터를 학습하고 처리할 수 있느냐는 스토리지 성능에 달려 있다고 해도 과언이 아닙니다.



 3) AI 모델의 진화와 데이터 증가



<이미지 출처: viso.ai, Foundation Models in Modern AI Development>

최근 AI 모델은 더욱 복잡하고 커졌습니다. 예를 들어, 자연어 처리 분야에서 GPT 시리즈와 같은 초대형 모델은 일반적으로 수십억 개를 넘어 수천억 개, 수조 개에 달하는 엄청난 양의 파라미터를 학습하고 있는데요. 이러한 모델을 학습시키기 위해서는 대규모 클러스터에서 데이터를 병렬 처리하고, 이를 GPU에 적시에 제공하는 고성능 스토리지가 핵심적인 역할을 합니다. 


AI 모델이 복잡해질수록, 필요한 데이터의 양도 기하급수적으로 증가하기 때문에 스토리지의 처리 속도와 용량이 AI 성능을 좌우하게 된다고 할 수 있는 것이죠.



 4) 실시간 AI의 부상


<이미지 출처: Xenostack>


또한, AI는 단순히 과거의 데이터를 학습하는 것뿐만 아니라, 실시간 데이터를 처리하는데도 사용됩니다. AI 기반 고객 행동 예측 시스템은 실시간으로 고객의 웹사이트 행동을 분석하여 맞춤형 광고를 보여주고 있고요. 금융 서비스에서는 AI가 실시간으로 거래 데이터를 분석해 이상 거래를 감지하고 대응할 수 있습니다. 이러한 실시간 AI 시스템은 데이터가 지연 없이 제공되어야만 빠르고 정확하게 의사결정을 내릴 수 있죠. 스토리지 성능이 떨어져 제때 데이터를 제공하지 못한다? 그럼 실시간 AI는 존재할 수 없을 겁니다.


 5) 데이터 병목 현상의 위험성



<이미지 출처: CIO, The AI Data Bottleneck>


만약 스토리지가 충분한 성능을 제공하지 못하면 병목 현상이 발생하게 됩니다. GPU는 대규모 데이터를 처리할 수 있는 강력한 장치지만, 데이터를 빠르게 받아들이지 못하면 GPU가 데이터를 기다리며 비효율적으로 작동하게 되겠죠. AI 연구에서 GPU가 멈추는 시간이 길어지면, 학습 시간이 크게 늘어나고 비용도 함께 증가합니다. 즉, 스토리지가 데이터 공급을 적시에 해줘야 GPU의 성능이 최대로 발휘될 수 있다는 것입니다.


이처럼, AI 기술이 발전하면서 대규모 데이터와 고성능 스토리지는 필수적인 요소로 자리 잡았습니다. AI는 대규모 데이터를 기반으로 학습하고 실시간으로 데이터를 처리하기 때문에, 데이터의 원활한 공급을 보장하는 스토리지가 없으면 AI 모델의 성능이 크게 저하될 수밖에 없습니다. 그래서 고성능 스토리지는 AI 기술의 심장과 같은 역할을 하며, AI가 그 잠재력을 완전히 발휘할 수 있도록 돕는 필수적인 인프라라고 할 수 있겠습니다.










2. AI GPU 팜 구축에 적합한 스토리지가 갖춰야 할 핵심 요건은?


AI 기술의 핵심적인 처리 장치인 GPU 팜(GPU Farm)은 고성능 AI 모델의 학습과 추론에 필수입니다. 하지만 GPU 팜이 최대한의 성능을 발휘하려면 효율적인 스토리지 시스템도 필요한데요. GPU 팜은 GPU와 네트워크뿐만 아니라, 데이터를 빠르게 공급하고 처리할 수 있는 스토리지가 병목 없이 구성되어야만 제 기능을 다할 수 있기 때문입니다. 이번에는 AI GPU 팜을 구현할 때 스토리지가 갖추어야 할 핵심 요건을 살펴보겠습니다.



 1) 고성능 데이터 입출력 (I/O)




<이미지 출처: AIwire, Beat the GPU Storage Bottleneck for AI and ML>


AI GPU 팜은 방대한 데이터를 빠르게 처리할 수 있어야 하기 때문에, 스토리지는 높은 입출력 성능을 제공해야 합니다. 특히, GPU는 데이터 처리 속도가 매우 빠르기 때문에 스토리지가 그 속도를 따라가지 못하면 GPU가 멈춰버리는 상황이 발생할 수도 있는데요. 이 경우, GPU 팜의 효율이 크게 떨어지며, AI 모델의 학습 시간도 지체될 겁니다.


예를 들어, GPU 하나가 초당 2~4GB의 데이터를 읽어야 한다고 가정할 때, 8개의 GPU를 장착한 서버는 초당 16~32GB의 데이터를 안정적으로 처리할 수 있어야 합니다. 이러한 성능을 구현하기 위해서는 스토리지가 GPU에 충분한 데이터 전송 속도를 제공할 수 있어야 하며, 데이터 병목 현상이 발생하지 않도록 스토리지의 I/O 성능이 받쳐줘야겠죠.



 2) 확장성과 유연성




AI 프로젝트는 데이터양이 급격히 늘어날 수 있기 때문에 스토리지 인프라의 확장성이 중요한 요건 중 하나입니다. 초기에는 상대적으로 적은 데이터를 사용하지만, 프로젝트가 진행될수록 데이터의 양이 기하급수적으로 증가할 수 있기 때문이죠. 그래서 AI 시스템에 알맞은 스토리지는 쉽게 확장 가능해야 하고, 필요에 따라 용량을 추가하는 것이 쉬워야 합니다.


또한, 다양한 워크로드를 처리할 수 있는 유연성도 필수입니다. AI 모델은 다양한 형식의 데이터를 사용하므로, 스토리지가 텍스트, 이미지, 비디오 등 다양한 데이터 유형을 효율적으로 처리할 수 있는 능력을 갖추어야 합니다. 특히, 머신러닝이나 딥러닝의 특성상 동일한 파일을 반복해서 읽는 경우가 많기 때문에, 이와 같은 워크로드를 처리할 수 있도록 캐시 기능을 지원하는 것도 중요한 요소입니다.



 3) 고속 네트워킹을 활용한 낮은 지연 시간(레이턴시, Latency)



<이미지 출처: Data Center News Asia>


AI GPU 팜에서는 지연 시간이 매우 중요한 요소입니다. 지연 시간이란 스토리지가 데이터를 처리하기까지 걸리는 시간을 의미하며, 이 시간이 길어지면 AI 모델의 성능도 크게 저하됩니다. 특히, 실시간으로 데이터를 처리하는 AI 시스템에서는 지연 시간을 최소화하는 것이 핵심이라고 할 수 있죠.


AI 모델은 고속으로 대량의 데이터를 처리해야 하기 때문에, 네트워크와 스토리지 모두에서 지연 시간을 줄이는 것이 중요합니다. 인피니밴드(Infiniband)와 같은 고속 네트워크 기술을 사용하여 스토리지와 GPU 사이의 지연 시간을 최소화하는 것이 중요하며, 스토리지 자체의 지연 시간도 낮아야 합니다. 그래야 AI 모델이 실시간으로 데이터를 분석하고, 즉각적인 결정을 내릴 수 있을 테니까요.


그리고 RDMA(Remote Direct Memory Access)와 같은 기술을 활용하면 스토리지에서 데이터를 GPU의 메모리로 직접 전달함으로써 CPU의 개입을 최소화하고, 데이터 전송 속도를 최적화할 수 있습니다. 이러한 고성능 네트워크 구성은 AI GPU 팜의 데이터 흐름을 원활하게 함으로써 AI의 데이터 학습 및 추론 시간을 크게 줄여줄 것입니다.




 4) 안정적인 대용량 데이터 처리



<이미지 출처: TechTarget, Key features of a distributed file system>


GPU 팜에서는 방대한 양의 데이터를 다루기 때문에, 안정적이고 대용량의 데이터를 처리할 수 있는 스토리지가 필요합니다. 특히, AI는 데이터 처리 중에 오류나 장애가 발생하면 전체 작업이 지연될 수 있으므로, 데이터 안정성도 매우 중요하다고 할 수 있는데요.


예를 들어, 자율주행 차량을 위한 AI 시스템에서는 수백 대의 차량 데이터가 동시에 수집되고 처리될 겁니다. 이 경우, 데이터 유실이나 장애 없이 안정적으로 데이터를 저장하고 처리할 수 있는 스토리지가 필수죠. 그래서 분산 파일 시스템과 이중화 구성을 통해 데이터 안전성을 높이는 것이 AI GPU 팜에서 중요한 스토리지 요건 중 하나라고 할 수 있습니다.



 5) 효율적인 데이터 관리로 비용 최적화



<이미지 출처: Prolifics, What is data management>


AI 프로젝트는 고성능 스토리지와 GPU를 필요로 하지만, 동시에 비용 효율성도 중요한 요소입니다. 사실 AI 프로젝트의 성패는 쏟아부은 돈의 양에 달려있다고 해도 과언이 아닐 테지만, 그렇다고 무작정 비용을 쏟아부을 수도 없는 노릇이죠. 게다가 모든 데이터를 최고 성능의 스토리지에 저장하는 것은 불필요한 비용을 발생시킬 수 있으므로, 자주 사용되는 핫 데이터와 잘 사용되지 않는 콜드 데이터를 구분하여 다양한 스토리지 계층을 활용하는 것이 필요합니다.


따라서, 자주 사용되는 데이터를 고속 스토리지에 저장하고, 덜 사용되는 데이터는 저비용 스토리지에 저장할 수 있다면 AI 시스템에서 필요로 하는 스토리지 성능을 확보하면서도 비용을 절감할 수 있을 겁니다. 또한, AI 시스템은 시간이 지남에 따라 점점 더 많은 데이터를 생성하기 때문에, 데이터 저장 및 관리에 대한 장기적인 비용 최적화 전략도 반드시 필요하겠죠.


결론적으로, AI GPU 팜을 구현할 때는 고성능 I/O, 확장성, 낮은 지연 시간, 안정적인 대용량 처리, 고속 네트워크 구성 등 다양한 스토리지 요건을 충족해야 합니다. 이러한 요건을 충족하지 않으면 GPU 팜의 성능이 제한되거나 전체 시스템이 비효율적으로 운영될 수 있겠죠. 그래서 스토리지의 성능이 중요합니다. AI의 성능을 극대화하기 위해서는 스토리지가 GPU와 함께 원활하게 협력할 수 있는 환경이 마련돼야 할 테니까요.









3. AI GPU 팜에 딱 알맞은, IBM SSS 6000 스토리지의 주요 특징


앞서 살펴본 내용을 토대로 AI 시스템에 왜 고성능의 스토리지가 필요한 지 이해하셨을 것으로 생각됩니다. 지금부터는 국내 AI GPU 팜과 슈퍼컴퓨팅 분야에서 활용되는 스토리지 시장에서 점유율 70% 이상을 기록하고 있는 IBM의 초 고성능 하이엔드 스토리지,  IBM Storage Scale System의 최신 제품인 IBM SSS 6000의 특징에 대해 알아보려고 합니다. 얼마나 성능이 뛰어나길래, 어떤 특징을 가지고 있기에 국내 AI GPU 팜, 기상예보 시스템 등의 HPC 슈퍼컴퓨팅에 활용되는 스토리지 중 2/3가 IBM Storage Scale System인지, 지금부터 함께 확인해 봅시다. 





 1) 고성능 데이터 처리




AI 시스템은 대규모 데이터가 빠르게 처리될 수 있어야 GPU가 최대 성능을 발휘할 수 있다고 앞서 언급했었는데요. IBM SSS 6000은 스토리지 한 대당 최대 310GB/s의 읽기 성능을 자랑하며, 이는 업계 최고 수준의 성능입니다. 2위 업체의 성능이 115GB/s 수준이라고 하니 거의 3배나 높은 성능을 자랑하는데요. 특히 스케일 아웃 방식을 지원하기 때문에, 스토리지를 여러 대 연결할 경우 성능이 선형적으로 증가하여 4대 구축 시 1.2TB/s 이상의 성능을 발휘할 수 있습니다.


예를 들어, 한 대의 SSS 6000이 310GB/s의 성능을 제공하지만, 두 대를 연결하면 620GB/s, 세 대는 930GB/s로 성능이 확대됩니다. 특히, AI 시스템에서 사용하는 NVIDIA H100 GPU x8로 구성된 NVIDIA DGX나 HGX 서버는 초당 32GB의 데이터 처리 성능을 요구하기 때문에(H100 GPU 1개가 4GB/s 요구), SSS 6000은 이러한 요구를 충분히 충족하며, 지연 없는 데이터 공급을 보장할 수 있습니다.



 2) 높은 확장성




IBM SSS 6000은 대규모 데이터 처리를 위한 확장성이 뛰어납니다. 하나의 랙에 SSS 6000을 9단으로 올리면 최대 12페타바이트(PB)의 데이터를 저장할 수 있으며, 이 랙을 최대 8,192대까지 확장할 수 있습니다. 거의 무한대로 확장이 가능하다고 해도 될 정도인데요. 이 덕분에 AI 프로젝트가 커지더라도 데이터를 저장할 공간이 부족할 걱정은 하지 않아도 될 겁니다. AI를 연구하는 기업이 필요에 따라 스토리지 저장 공간을 얼마든지 확장할 수 있다는 것으로 이해하셔도 됩니다.



 3) 로컬 캐시 지원



AI 시스템에서는 동일한 파일을 반복적으로 읽는 경우가 많기 때문에, 스토리지에 과부하가 걸리지 않도록 캐시 기능을 활용하는 것이 매우 중요한데요. IBM SSS 6000은 GPU의 성능을 극대화하기 위해 Local Read Only Cache라는 독특한 캐시 기능을 지원합니다. 


Local Read Only Cache는 GPU에 가까운 위치에서 데이터를 캐싱할 수 있어, 동일한 데이터를 반복해서 읽을 때마다 스토리지에 부하가 걸리지 않도록 합니다. 예를 들어, PCI 슬롯에 NVMe 디스크를 장착하여 GPU 바로 옆에서 데이터를 캐싱함으로써, 데이터를 읽는 속도를 대폭 높이고 스토리지에 걸리는 부하를 줄일 수 있습니다.



 4) 인피니밴드 고속 네트워크와 다양한 프로토콜 지원




IBM SSS 6000은 인피니밴드(InfiniBand) 네트워크를 지원하여 낮은 지연 시간과 고속 데이터 전송을 보장합니다. 인피니밴드와 더불어 RDMA(Remote Direct Memory Access) 기술을 활용해 CPU 개입 없이 데이터를 직접 GPU 메모리에 전송함으로써, 데이터 전송 과정에서 발생하는 지연 시간을 최소화할 수 있습니다.


또한 IBM SSS 6000은 S3, NFS, CIFS, HDFS 등 다양한 프로토콜을 지원하여 여러 시스템과 원활하게 연동할 수 있습니다. 덕분에 기업은 이미 보유한 다양한 데이터 관리 시스템과 쉽게 연결하여 데이터를 통합할 수 있겠죠. 그리고 IBM SSS 6000은 다중 프로토콜을 지원하기 때문에 데이터가 원격지 또는 온프레미스 시스템에서 수집되더라도, 복잡한 변환 과정 없이 바로 AI GPU 팜으로 데이터를 전달할 수 있습니다. 이로 인해 데이터 처리 및 학습 속도가 대폭 향상됩니다. 


예를 들어, 일반적인 경우에는 기업이 운영하는 여러 시스템에서 수집된 데이터가 데이터 레이크와 같은 대규모 저장소에 모아진 후, ETL(Extract, Transform, Load) 도구를 통해 정제된 다음에야 GPU 팜으로 전달됩니다. 그러나 IBM SSS 6000은 이러한 복잡한 과정을 단순화시킬 수 있는데요. 원격지에서 수집된 데이터를 S3 프로토콜을 통해 저장하고, GPU 팜은 이 데이터를 즉시 접근하여 처리할 수 있기 때문에 데이터 이동 과정에서 발생할 수 있는 지연이 최소화됩니다.


만약 자율주행 차량에 활용될 AI 시스템을 개발한다고 가정해 봅시다. 많은 수의 차량에서 대량의 데이터가 여러 센서로부터 실시간으로 수집되겠죠? IBM SSS 6000을 활용하면, 이 데이터를 원격지에서 즉시 수집하고, AI GPU 팜으로 데이터를 실시간으로 전송하여 자율주행 알고리즘의 학습을 빠르게 진행할 수 있을 것입니다.




 5) 효율적인 데이터 관리 및 비용 절감




IBM SSS 6000은 정책 기반의 자동화된 데이터 티어링 기능을 제공하여, 데이터의 중요도와 사용 빈도에 따라 효율적으로 저장소를 관리할 수 있습니다. 중요한 점은 데이터를 처음 저장할 때부터, 해당 데이터의 사용 빈도를 예측하여 핫 데이터와 콜드 데이터로 구분해 저장할 수 있다는 것인데요. 예를 들어, 자주 사용되는 중요한 데이터를 NVMe 스토리지와 같은 고속 스토리지에 우선 저장하고, 활용도가 낮은 데이터는 NL-SAS 디스크나 오브젝트 스토리지 또는 테이프와 같은 저렴한 저장 매체로 아카이빙할 수 있습니다. 


일반적인 시스템에서는 데이터를 모두 한 곳에 저장한 뒤, 나중에 사용 빈도를 분석하고 필요 없는 데이터를 아카이빙하는 복잡한 과정을 거치지만, IBM SSS 6000은 이 과정을 단순화시킵니다. 처음부터 데이터를 목적에 맞게 적합한 스토리지로 분류해 저장할 수 있거든요. 그리고, AI를 위한 스토리지 환경에서는 고속 NVMe 스토리지가 필수이지만, 이 저장매체는 비용이 많이 드는 것이 단점입니다. 하지만 IBM SSS 6000은 자주 사용되는 데이터를 고속 스토리지에 배치하고, 사용 빈도가 낮은 데이터는 NL-SAS 디스크나 테이프 스토리지로 자동 이동하는 정책 기반 데이터 티어링을 제공합니다. 이 기능 덕분에, 기업은 좀 더 비용 효율적인 AI를 위한 스토리지 환경을 구현할 수 있게 됩니다.




 6) 데이터 보호 및 보안 기능






IBM SSS 6000의 데이터 보호 기능은 특히 중요한 데이터를 랜섬웨어와 같은 사이버 위협으로부터 안전하게 보호하기 위해 설계되었습니다. 그 중에서도 스냅샷과 세이프가드 카피(Safeguarded Copy) 기능은 이러한 보호를 더욱 강화하는 핵심적인 요소인데요. 먼저, 스냅샷은 데이터를 실시간으로 복사해 특정 시점의 상태를 기록하는 기능으로, 주기적으로 중요한 데이터를 자동으로 백업합니다. 


예를 들어, AI 모델을 학습하는 데이터나 자율주행 시스템에서 수집된 방대한 데이터를 실시간으로 백업해둘 수 있습니다. 이러한 스냅샷은 만약 데이터가 손상되거나 실수로 삭제되었을 때, 스냅샷을 통해 언제든 복구할 수 있는데요. 하지만 일반적인 스냅샷 기능만으로는 랜섬웨어와 같은 고도화된 위협에 충분히 대응하기 어려울 수 있습니다. 랜섬웨어 공격자는 스냅샷을 삭제하거나 손상시키려 할 수 있기 때문이죠. 이때 IBM SSS 6000의 세이프가드 카피 기능이 빛을 발합니다. 이 기능은 특정 시점의 데이터를 불변(Immutability) 상태로 기간을 정해 저장하며, 심지어 관리 권한을 가진 사용자나 해커조차도 해당 데이터를 삭제하거나 수정할 수 없게 만듭니다. 


세이프가드 카피는 데이터를 안전한 공간에 별도로 보관되는데요. 만일의 경우에도 데이터가 항상 복구 가능한 상태로 유지됩니다. 이 기능 덕분에 기업은 랜섬웨어 공격에 대한 방어뿐만 아니라, 중요한 비즈니스 데이터를 보관하는 금융권이나 헬스케어 산업에서도 활용되고 있다고 합니다. 이 정도의 보안 성능이라면 AI 데이터를 안전하게 보호할 수 있겠죠?





스토리지 자체의 안정성도 중요하지만 스토리지 외적인 요소로 인해 장애가 발생할 수 있는 가능성에도 대비할 필요가 있습니다. 이를 위해 IBM SSS 6000은 Active-Active 스토리지 이중화 기능을 제공하는데요. 두 개 이상의 스토리지 시스템이 동시에 운영되어 하나의 시스템에 문제가 생기면 다른 시스템이 자동으로 그 역할을 이어받아 데이터를 보호하고 서비스가 중단되지 않도록 보장하는 기능입니다. IBM SSS 6000의 Active-Active 스토리지 이중화의 특징을 간단히 3가지로 요약해 볼까요?

  • 자동 장애복구: 시스템에 장애가 발생해도 수동 개입 없이 다른 시스템이 자동으로 업무를 이어받아 연속적인 서비스 제공

  • 부하 분산: 여러 시스템이 동시에 작업을 처리하여 과부하를 방지하고, 성능 저하 없이 빠른 데이터 처리와 성능 유지를 보장

  • 실시간 데이터 동기화: 모든 스토리지 시스템 간에 실시간으로 데이터가 동기화되어 데이터 무결성 유지




 7) 스토리지 소프트웨어 경쟁력




<이미지 출처 : Tech Crunch, With the acquisition closed, IBM goes all in on Red Hat>


2000년대 이후 IT 업계 세기의 빅딜 중 하나인 IBM의 Red Hat 인수가 2019년에 마무리 되었습니다. 이후 Red Hat은 여전히 독립 법인으로 남아있지만 Red Hat의 조직 중 Samba, ganesha, Noobaa 등 스토리지 오픈소스 업스트림 프로젝트를 담당하던 개발팀은 IBM 내부 조직으로 흡수되었는데요.


이후 이들이 개발하는 스토리지 오픈소스 프로젝트 기술들은 최우선적으로 IBM Storage Scale System에 적용되고, 이후 개선된 사항은 다시 업스트림 프로젝트에 반영되어 공개되고 있습니다. 즉, 스토리지에 활용되는 최신 오픈소스 기술들을 IBM 스토리지에서 가장 먼저 만나볼 수 있다는 것입니다. 최근의 오픈소스 활용도가 지속적으로 증가하고 있는 추세를 볼 때, IBM 스토리지의 소프트웨어 경쟁력은 앞으로도 지속적으로 최고 수준을 유지할 수 있겠죠?



따라서, IBM SSS 6000의 특징을 간단히 요약하면 이렇습니다. IBM SSS 6000은 AGPU 팜과 같은 고성능 컴퓨팅 환경에서 필수적인 스토리지로, 최고의 성능, 유연한 확장성, 강력한 데이터 보호 기능을 제공하고 있고요. 소프트웨어 경쟁력도 매우 높습니다. 이러한 특징들 덕분에 기업은 대규모 데이터 처리를 효율적으로 수행할 수 있는 AI를 위한 최적의 환경을 구축할 수 있을 것입니다. 


제가 소개해 드린 IBM SSS 6000의 특징은 매우 축약된 버전입니다. 보다 자세한 설명이 필요하신 분들은 아래의 웨비나 영상을 확인해 보시기 바랍니다.










4. IBM Storage Scale System 스토리지 구축 사례




앞서 간단히 언급한 것처럼, IBM Storage Scale System 스토리지는 다양한 AI 및 고성능 컴퓨팅(HPC) 환경에서 널리 사용되고 있으며, 여러 사례를 통해 그 성능과 효율성을 입증하고 있습니다.  그 중에서도 특히 위와 같이 AI GPU 팜을 구성하는 대규모 데이터 분석 시스템에 활용되고 있는데요. 이러한 환경에서 중요한 점은 AI 모델 학습 시 동일한 데이터를 반복적으로 읽는 워크로드가 발생한다는 점입니다. 이 때 IBM SSS 6000을 활용해 로컬 NVMe 디스크를 이용한 캐시 시스템을 지원하여 데이터 리드 히트율을 높일 수 있고요. 그 결과, GPU 서버에서 데이터를 반복적으로 읽을 때 스토리지의 과부하를 방지하면서도 효율적인 데이터 처리가 가능해졌습니다.


이렇게 IBM Storage Scale System이 구축된 대표적인 국내 사례 2개를 확인해 봅시다. 



 1) NHN Cloud 광주 AI 클라우드 센터



<이미지 출처: 연합뉴스, NHN클라우드 '국가 AI 데이터센터' 광주서 정식 운영 개시>


NHN 클라우드는 광주광역시 국가 AI 데이터센터를 구축하면서 IBM SSS 스토리지를 선택했습니다. 이 데이터센터는 연산 능력에서 글로벌 상위권에 해당하는 88.5PF(페타플롭스)에 달하며, 저장 용량이 107PB에 이르는데요. 이 엄청난 성능의 데이터센터는 IBM SSS 6000 스토리지를 활용해 1초에 8.85경번의 연산이 가능한 시스템을 구축했고, 10MB 크기의 파일이 10억 7,000만 개 저장될 수 있는 방대한 저장 용량을 자랑합니다. 


이처럼 엄청난 성능의 데이터 처리와 거대한 저장 능력이 요구되는 환경에서 IBM SSS 6000은 빠른 데이터 처리 속도와 안정적인 데이터 저장 기능을 제공함은 물론, 선형적 성능 확장을 통해 데이터의 양이 증가하더라도 성능 저하 없이 빠르게 데이터를 처리할 수 있도록 지원합니다. NHN Cloud가 구축한 광주 AI 클라우드 센터와 같은 거대한 AI GPU 팜에 IBM SSS 6000이 왜 제격인지 알 수 있는 사례라고 할 수 있겠습니다.



 2) 유전자 분석 시스템




IBM SSS 6000은 유전자 분석 시스템에서도 사용되고 있습니다. 유전자 분석 프로젝트는 대량의 데이터를 생성하고 이를 장기간 보관해야 하는 특성이 있는데, IBM SSS 6000의 데이터 티어링 기능을 활용해 데이터를 효율적으로 관리할 수 있거든요. 예를 들어, 분석된 유전자 데이터는 고속 NVMe 스토리지에 저장되지만, 분석이 끝난 후에는 사용 빈도가 낮은 데이터를 NL-SAS 디스크나 테이프 스토리지로 이동시켜 저장 비용을 절감합니다.


이러한 특징은 대규모 데이터를 처리하면서도 비용을 효율적으로 관리해야 하는 유전자 분석 시스템에서 매우 중요한 요소라고 할 수 있겠죠. 또한, 유전자 분석 프로젝트에서는 컴플라이언스 규제에 따라 10년 이상 데이터를 보관해야 하는데, IBM SSS 6000은 테이프 스토리지를 통해 데이터를 장기 보관할 수 있도록 지원하여 까다로운 규제 준수도 문제없습니다.


이 밖에도, 기상청 슈퍼컴퓨터, 위성지상국 시스템, 유명 대기업의 HPC 센터 슈퍼컴퓨터에 IBM Storage Scale System이 널리 활용되고 있습니다. 그리고, 글로벌 사례도 있는데요. 호주의 퀸즐랜드 뇌 연구소(Queensland Brain Institute)에서는 알츠하이머 연구를 포함한 복잡한 연구 작업에서 처리 시간이 74% 단축되는 성과를 거두었다고 합니다. 














5. 결론 : AI, HPC 환경에서 최적화된 스토리지, 구축도 AI에 진심인 기업에 맡겨야



지금까지 AI를 위한 GPU 팜에 왜 IBM SSS 6000과 같은 고성능 하이엔드 스토리지가 필요한지, IBM SSS 6000이 가진 특징은 어떤 것들이 있는지 자세히 알아봤습니다. 만약 자체 AI GPU 팜 구축을 계획 중인 기업이라면, 혹은 고성능 HPC 환경을 구현하려는 기업이라면 IBM SSS 6000이 제격이라고 할 수 있겠는데요. 그렇다면, 실제로 구축하게 될 경우 어떤 업체에 의뢰해야 할까요? 당연히 AI 구축 경험이 많은 업체와 함께 해야겠죠?



<이미지 출처 : 코오롱베니트 AI 얼라이언스 홈페이지>


다양한 글로벌 IT 인프라 기업의 국내 총판권을 가지고 있는 코오롱베니트는 IBM의 모든 하드웨어와 소프트웨어를 공급하는 기업인데요. 코오롱베니트의 AI 얼라이언스는 지난 6월 출범한 국내 최대 규모의 AI 협력 체계입니다. 코오롱베니트 AI 얼라이언스는 AI 도입을 준비하고 있는 기업들에게 다양한 솔루션을 제안하고 최적의 서비스를 구축하기 위한 전문가들로 구성되었는데요. 수십 년 동안 IBM을 비롯한 글로벌 벤더의 총판 사업 경험과 전국적인 파트너 네트워크를 기반으로, 기업 AI 도입의 End-to-End를 지원하는 선봉장 역할을 수행하겠다는 포부를 밝힌 것으로 읽혀집니다.




<이미지 출처 : 코오롱베니트 AI 얼라이언스 홈페이지>


코오롱베니트의 AI 얼라이언스에 소속된 대표적인 업체들의 회사 로고입니다. 이런 AI 솔루션 공급 업체들이 국내의 수많은 기업들에게 AI 시스템을 공급할 수 있는 기회를 마련할 수 있는 파트너로 코오롱베니트를 선택한 이유가 있겠죠? 코오롱베니트가 AI 구축 역량이 뛰어나고, 경험도 풍부하기 때문에 이렇게 많은 AI 전문 기업들의 구심점 역할을 할 수 있는 것이 아닌가 싶습니다. AI에서만큼은 코오롱베니트가 다른 IT 총판 업체들보다 훨씬 진심인 것처럼 보이는군요.




<이미지 출처 : IT Biz News, 코오롱베니트, 'AI솔루션센터' 개소>


그리고 코오롱베니트는 자신들의 AI 구축 노하우를 기업들이 직접 체험해 볼 수 있는 AI 솔루션 센터를 운영하고 있습니다. 기존에 코오롱베니트가 운영하던 가산의 테크센터를 확장 이전한 것인데요. 기업들은 여기서 코오롱베니트가 총판권을 보유하고 있는 다양한 글로벌 벤더의 인프라를 기반으로 생성AI, 머신러닝(ML), MLOps, AI 거버넌스, 데이터레이크, 벡터DB 등 다양한 AI 비즈니스 솔루션을 테스트해 볼 수 있습니다. AI 솔루션 센터에서 우리 회사에 알맞은 AI 솔루션이 무엇인지 확인하고, 실제 구축 역시 이곳에 구현된 하드웨어와 소프트웨어를 활용해 코오롱베니트의 도움으로 진행할 수 있다는 것입니다.






IBM SSS 6000은 AI GPU 팜에 최적인 스토리지고, 코오롱베니트는 AI에 이토록 진심이니, 자체 AI 프로젝트를 위한 스토리지 도입을 위해 IBM SSS 6000을 고려하는 기업이라면, 우선적으로 코오롱베니트 전문가와 상의하는 것이 당연지사 아닐까요? 구체적인 상담이 필요하신 분들은 아래의 링크에서 신청해 보시기 바랍니다.


이 콘텐츠가 AI GPU 팜을 위한 초 고성능의 스토리지, 자체 HPC 환경 구현을 위한 고성능과 확장성 두 마리 토끼를 모두 잡은 스토리지를 찾고 계신 IT 담당자 분들께 조금이나마 도움이 되었기를 바랍니다. 끝!


6개의 댓글이 있습니다.

약 2달 전

정보 참고하겠습니다.

Reply

댓글 남기기

댓글을 남기기 위해서는 로그인이 필요합니다.

로그인 회원가입

약 2달 전

자료 참고 합니다.

Reply

댓글 남기기

댓글을 남기기 위해서는 로그인이 필요합니다.

로그인 회원가입

2달 전

자료 잘 받았습니다.

Reply

댓글 남기기

댓글을 남기기 위해서는 로그인이 필요합니다.

로그인 회원가입

2달 전

참고 하겠습니다.

Reply

댓글 남기기

댓글을 남기기 위해서는 로그인이 필요합니다.

로그인 회원가입

2달 전

참고 하겠습니다.

Reply

댓글 남기기

댓글을 남기기 위해서는 로그인이 필요합니다.

로그인 회원가입

2달 전

참고 하겠습니다.

Reply

댓글 남기기

댓글을 남기기 위해서는 로그인이 필요합니다.

로그인 회원가입

댓글 남기기

댓글을 남기기 위해서는 로그인이 필요합니다.

로그인 회원가입