AI를 위한 스토리지 도입 시 검토해야 할 요소는?

2024.01.03 관리자 (쉐어드아이티) 3개의 댓글

2022년 11월 30일, ChatGPT가 쏘아올린 매우 큰 공 덕분에 2023년의 IT 분야 최대 화두는 생성형 AI가 되었다고 해도 과언이 아닐 것입니다. 그리고 글로벌 시장조사기관 가트너 역시 2024년 10대 전략 기술 중 첫 번째로 'AI Trust, Risk and Security Management'를 꼽았습니다. ChatGPT와 같은 생성형 AI가 대중화되면서 잘못된 정보를 전달하는 할루시네이션 현상과 AI가 학습하는 데이터의 개인정보 보호와 관련된 문제, 그리고 AI가 범죄에 악용될 수 있다는 점이 영향을 끼쳤을 것으로 생각되는데요. 그만큼 AI가 클라우드 만큼이나 영향력이 큰 메가 트렌드로 자리잡을 것이기 때문에 이러한 예측을 내놓은 것이 아닌가 싶습니다.

<이미지 출처 : lablab.ai Blog, Artificial Intelligence (AI) Industry Trends in 2023: Market Size, Share & Forecast>

이러한 상황을 반영하듯, AI 시장 역시 급격하게 성장하고 있습니다. 2022년, 글로벌 AI 시장은 136.6억 달러에 이르렀으며, 2023년에는 196.6억 달러로 성장할 것으로 예상되는 조사 결과가 있고, 2022년 글로벌 AI 시장 규모는 428억 달러에서 454.12억 달러에 이를 것으로 추정된다는 결과도 있었습니다. AI 시장 규모에 대한 지표를 좀 더 구체적으로 살펴볼까요?

<이미지 출처 : Fortune Business Insights>

Foutune Business Insights는 2022년에는 AI 시장이 428억 달러 규모였으며, 2023년에는 515.31억 달러로 성장할 것으로 예상되고, 2030년까지 2,025.12억 달러에 이를 것으로 전망하고 있는데요. 이것은 연평균 성장률(CAGR)이 21.6%에 달하는 엄청난 수치입니다. 또한 Market and Market은 2023년 글로벌 AI 시장 규모는 150.2억 달러이며, 2030년까지 연평균 성장률(CAGR)이 36.8%로 성장하여, 1,345.2억 달러에 이를 것으로 예상하고 있습니다.

그래고 글로벌 컨설팅 회사인 McKinsey의 연구에 따르면, 생성형 AI가 연간 2.6 ~ 4.4조 달러의 가치를 창출해 AI의 글로벌 경제에 끼치는 영향이 40%까지 증가될 것으로 예측했습니다. McKinsey는 AI가 2040년에서 2060년 사이에 사람이 수행하는 작업의 절반 정도를 자동화할 것으로 예상했는데, 생성형 AI의 도입이 이런 변화를 약 10년 정도 앞당길 것으로 보고 있습니다. 게다가 미국의 투자은행 Goldman Sachs는 생성형 AI가 전 세계 GDP의 7%인 7조 달러를 증가시키고, 미국 내 직업의 2/3가 AI 기반의 자동화에 영향을 받을 것으로 예측했습니다.

이렇듯 AI 시장을 조사하는 기관마다 예측치는 각기 다릅니다만, 분명한 것은 AI 시장 전망이 매우 밝다는 것이고, 저를 비롯한 많은 분들이 이에 동의하시리라 생각합니다.

이렇게 급격하게 성장하고 있는 AI 시장의 한 축은 AI를 위한 인프라 시장이 담당하고 있습니다. AI는 축적된 데이터를 학습한 결과를 가지고 만들어낸 또 하나의 서비스이니만큼, 데이터를 저장하고 학습시킬 IT 인프라가 반드시 필요하죠. 시장조사기관 Mordor Intelligence는 AI 인프라 시장이 2023년에는 AI 인프라 시장이 56.99억 달러에 이를 것으로 추정되며, 2028년까지 142.53억 달러로 성장하여 2023-2028년 기간 동안 연평균 성장률(CAGR)이 20.12%를 기록할 것이라고 전망했습니다. 당장 LLM의 필수품이라 여겨지는 고성능 GPU 시장을 독점하다시피 지배하고 있는 NVIDIA의 주가가 2023년에만 전년 대비 3배 이상 성장한 것만 봐도 AI 인프라 시장 역시 장미빛이라고 전망해도 어색하지 않겠죠.

그렇다면, 기업들이 자체적인 AI 서비스를 개발하기 위해서 갖춰야 할 IT 인프라는 어떤 것들이 있을까요? 앞서 언급한 고성능 GPU를 장착한 서버와 빠르게 데이터를 전송할 수 있는 네트워크, 그리고 다양한 유형의 데이터를 저장하고 처리해서 AI 모델이 학습할 수 있는 데이터셋을 마련해줄 수 있는 스토리지가 당장 떠오르는 하드웨어 인프라인 것 같은데요. 그래서 이번 콘텐츠에서는 이 3가지 인프라 중 스토리지를 좀 더 자세히 들여다보려고 합니다. 아젠다는 아래와 같습니다.

아젠다

1. 기업이 자체 AI 서비스 개발을 위해 갖춰야 할 인프라 종류와 특징

2. AI를 위한 스토리지가 응당 갖춰야 할 요건은?

3. AI에 딱 맞는 스토리지, Hitachi Content Software for File의 강점

4. 결론 : 역량있는 AI 스토리지 공급사, 어떤 기준으로 선택해야 할까?

●아젠다 별 링크를 클릭하면 해당 내용의 첫 부분으로 이동합니다.
●마우스의 뒤로가기 버튼을 클릭하면 다시 아젠다로 돌아옵니다

이 콘텐츠는 효성인포메이션시스템의 지원으로 제작되었습니다.

1. 기업이 자체 AI 서비스 개발을 위해 갖춰야 할 인프라 종류와 특징

기업이 자체 AI 서비스 개발을 위해 갖춰야 할 필수 인프라는 크게 데이터 처리, 저장, 관리 및 연산 능력과 관련된 인프라입니다. 이러한 인프라는 AI 시스템의 학습, 추론, 데이터 분석 등의 기능을 원활하게 수행하는 데 반드시 필요한데요. 어떤 인프라가 필요한 지 간단히 살펴볼까요?

●고성능 컴퓨팅 시스템 (High-Performance Computing, HPC)

AI는 대규모 데이터 세트를 처리하고 복잡한 연산을 수행해야 하므로 강력한 컴퓨팅 능력이 필요합니다. 그래서 고성능 GPU(그래픽 처리 장치) 및 TPU(텐서 처리 장치)가 머신 러닝, 딥 러닝 등의 작업에 필수 요소로 자리잡았습니다.

●스토리지 시스템

AI는 대량의 데이터를 저장, 검색, 분석해야 하므로 고용량, 고성능의 스토리지가 필요합니다. 스토리지는 데이터의 안정성과 접근성을 보장해야 하며, 대규모 데이터를 저장할 수 있는 데이터 레이크나 클라우드 스토리지가 주로 사용됩니다.

●네트워킹 인프라

AI의 원활한 데이터 학습 및 추론을 위해서는 기업이 보유한 데이터센터 내부 및 외부에서 고속으로 데이터 전송이 가능해야 합니다. 대량의 데이터를 빠르게 전송할 수 있는 고성능의 네트워크는 다수의 GPU 서버 노드와 대용량 스토리지 시스템을 운영할 때 특히 중요합니다.

●데이터 처리 및 분석 도구

AI 알고리즘을 구현하기 위한 소프트웨어 도구와 플랫폼도 AI를 위한 필수적인 인프라입니다. 예를 들어, TensorFlow, PyTorch 같은 머신 러닝 라이브러리가 널리 사용되는 AI를 위한 데이터 처리를 위한 소프트웨어라고 할 수 있습니다.

●보안 및 컴플라이언스

AI 서비스는 개인정보 보호, 데이터 보안, 규제 준수 등을 고려해야 합니다. AI를 위한 보안 인프라와 프로토콜은 데이터의 안전한 처리와 저장을 보장하는 데 중요하며, 보안에 대한 중요성은 AI 서비스가 대중화될 수록 더 높아질 것으로 예상되고 있습니다.

이렇듯, 기업이 AI 서비스 개발을 위해 반드시 갖춰야 할 인프라는 크게 5가지 정도 나눌 수 있는데요. 이 5가지 요소 중 이번 콘텐츠에서 주로 다룰 것은 스토리지입니다. 그렇다면, 스토리지가 왜 AI에 있어 중요한 인프라일까요? 일반적으로 미션크리티컬 애플리케이션을 안정적으로 운영하기 위해서는 고성능의 스토리지가 필요합니다. AI는 미션크리티컬 애플리케이션과 성격은 조금 다르지만 마찬가지로 높은 데이터 처리 성능을 요구하는데요. AI에 스토리지가 중요한 이유룰 간단히 요약해보면 아래와 같습니다.

●대규모 데이터 저장

AI 모델 학습에는 방대한 양의 데이터가 필요하며, 이 데이터를 안정적으로 저장하고 관리할 수 있는 스토리지가 반드시 필요합니다.

●빠른 데이터 접근 및 처리

AI 모델은 학습과 추론 과정에서 대량의 데이터에 빠르게 접근해야 합니다. 이를 위해 고속의 읽기/쓰기 성능을 제공하는 스토리지가 필요합니다.

●데이터 무결성 및 안정성

AI 시스템은 데이터의 무결성을 유지해야 하며, 장애나 손실 없이 데이터를 안전하게 보관할 수 있어야 합니다.

이와 같은 이유로 인해, 효과적인 AI 시스템을 구축하기 위해서는 강력한 성능에 데이터를 안전하게 보관할 수 있는 스토리지가 필요하다고 할 수 있겠는데요. 그렇다면, AI에 알맞은 스토리지는 어떤 스토리지여야 할까요? 단순히 빠른 성능이 필요하다면 NVMe SSD로만 이루어진 올플래시 스토리지를 도입하면 AI를 위한 모든 준비가 끝나는 것일까요? 그렇지 않습니다. 왜 그런지 그 이유를 자세히 알아보겠습니다.

2. AI를 위한 스토리지가 응당 갖춰야 할 요건은?

1) 분산 병렬 파일 시스템 지원 여부

AI 모델의 경쟁력은 얼마나 많은 데이터를 빠르게 학습할 수 있느냐에 따라 결정된다고 봐도 과언은 아닙니다. 그래서 예전에는 HPC 인프라에 고성능 NAS를 연결해서 AI 분석에 사용하곤 했었는데요. NAS의 NFS(Network File System)는 네트워크를 통해 파일 시스템을 공유하는 데 사용되는 프로토콜로 파일 기반의 스토리지 접근 방식을 제공하며, 사용의 용이성과 광범위한 호환성으로 인해 널리 사용되어왔습니다. 하지만 병목현상으로 인해 AI가 요구하는 고성능을 발휘하기 어렵습니다. 그 이유를 간단히 정리해 보면 아래와 같습니다.

●중앙집중식 아키텍처

NFS는 중앙집중식 아키텍처를 기반으로 하며, 데이터는 요청 받은 노드를 통해 처리됩니다. AI, HPC 환경에서는 많은 수의 클라이언트가 동시에 NAS에 접근하게 되는데, 이 때 해당 노드의 처리 능력이 한계에 도달하면 병목현상이 발생할 수 있습니다.

●메타데이터 관리 부하

파일시스템에서는 각 파일과 디렉토리에 대한 메타데이터(위치, 크기, 권한, 수정 시간 등)를 관리해야 합니다. 파일 및 디렉토리의 수가 많아지면, 이러한 메타데이터를 관리하는 데 필요한 시스템 자원과 처리 시간이 증가할 수밖에 없죠. 특히 파일 열기, 검색, 디렉토리 목록 조회 등의 작업이 빈번하게 발생할 때 불리한 구조라고 할 수 있습니다.

이러한 병목현상 뿐만 아니라, NFS는 대규모 데이터 세트를 빠르게 처리해야 하는 AI 분석 환경에 최적화되어 있지 않습니다. AI 워크로드는 종종 랜덤 액세스나 대규모 파일 처리가 필요한데, NFS의 파일 기반 시스템은 이러한 요구사항에 비효율적일 수 있기 때문에 NAS는 AI에 알맞은 스토리지라고 하긴 어렵습니다.

그래서 필요한 것이 분산 병렬 파일 시스템인데요. 어떤 특징을 가지고 있는지 간단히 정리해 보겠습니다.

●대규모 데이터 처리 효율성

AI와 머신 러닝 워크로드는 대량의 데이터를 처리해야 합니다. 분산 병렬 파일 시스템은 여러 노드에 데이터를 분산 저장하고, 동시에 대량의 데이터를 처리할 수 있게 해줍니다.

●높은 입출력(I/O) 성능

AI 모델의 학습과 추론은 높은 I/O 성능을 요구합니다. 분산 병렬 파일 시스템은 여러 노드에서 동시에 데이터에 접근하고 처리할 수 있어, 빠른 데이터 읽기 및 쓰기 속도를 제공합니다.

●확장성

AI 애플리케이션은 시간이 지남에 따라 처리해야 할 데이터의 양이 증가하기 마련입니다. 분산 병렬 파일 시스템은 스토리지 용량이나 성능을 필요에 따라 쉽게 선형적으로 확장할 수 있어, 장기적인 관점에서 스토리지 인프라 확장에 대한 유연성을 제공할 수 있습니다.

●데이터 무결성 및 안정성

분산 병렬 파일 시스템은 데이터를 여러 노드에 분산하여 저장함으로써, 하나의 노드에 문제가 생겨도 데이터의 손실이나 손상을 방지할 수 있습니다. 덕분에 AI 시스템에서 중요한 데이터의 무결성과 안정성을 보장할 수 있게 됩니다.

●시스템 자원에 대한 부하 감소

AI 애플리케이션은 때때로 매우 높은 계산 부하를 발생시킵니다. 분산 병렬 파일 시스템은 네트워크를 통해 여러 노드에 부하를 분산시킴으로써 시스템 자원을 보다 효율적으로 사용할 수 있도록 돕습니다.

●비용 효율성

데이터가 증가함에 따라, 전통적인 중앙집중식 스토리지 시스템의 확장은 비용이 많이 들 수 있습니다. 반면, 분산 병렬 파일 시스템은 추가 하드웨어를 점진적으로 추가함으로써 비용 효율적인 확장이 가능합니다. 게다가 노드를 추가할 때 마다 선형적으로 성능과 용량이 함께 확장되니, 향후 스토리지 추가 계획을 수립하고 소요 비용을 예측하는 데에 훨씬 유리합니다.

2) 멀티 프로토콜 지원 여부

AI가 학습해야 하는 데이터 유형은 정형, 반정형, 비정형 등 종류가 매우 다양하고 크기 역시 제각각이며 다양한 플랫폼에서 생성됩니다. 그래서 AI를 위한 스토리지라면 이런 여러 플랫폼에서 접근 가능해야 합니다.

즉, NFS (Network File System), SMB (Server Message Block), S3 등 멀티 프로토콜을 지원해야 하는 것인데요. 이게 가능해야 하나의 스토리지 시스템에서 다양한 유형의 데이터를 수집해서 처리할 수 있습니다.

그렇다면, 멀티 프로토콜을 지원하는 스토리지는 AI 업무에 어떤 이점을 제공해줄 수 있을까요? 간단히 정리해 보겠습니다.

●호환성

다양한 프로토콜을 지원하는 스토리지는 여러 종류의 네트워크 환경과 애플리케이션에 적용할 수 있으며, 다양한 운영 체제 및 기기와의 호환성을 보장합니다. 이는 특히 AI 환경에서 중요한데, 다양한 데이터 소스와 애플리케이션을 통합적으로 관리해야 할 필요가 있기 때문입니다.

●데이터 관리 효율성

멀티 프로토콜 스토리지를 사용하면, 하나의 스토리지 시스템 내에서 다양한 유형의 데이터를 효율적으로 관리할 수 있습니다. 이로 인해 기업은 데이터 관리의 복잡성을 줄이고, 전체적인 스토리지 운영 비용을 절감할 수 있습니다.

●미래 지향성

AI 환경은 끊임없이 진화하고 있으며, 새로운 기술 및 프로토콜이 지속적으로 등장합니다. 멀티 프로토콜 스토리지는 이러한 변화에 유연하게 대응할 수 있으며, 미래의 새로운 기술 적용에 유리합니다.

따라서, AI를 위한 스토리지는 다양한 데이터 소스, 애플리케이션, 네트워크 환경에 적합하고, 데이터 관리의 효율성을 제공하기 위해 멀티 프로토콜을 지원해야 합니다. 이것은 효율적인 데이터 처리, 유연한 시스템 운영, 그리고 장기적인 확장성 및 새로운 기술 적용 측면에서 매우 중요한 요소라고 할 수 있겠습니다.

3) 고성능을 위한 기술

스토리지가 고성능을 발휘하기 위해서는 기본적으로 NVMe SSD로 구성된 올플래시 스토리지여야 하며, 데이터 전송 속도를 향상 시킬 수 있는 기술을 적용해야 합니다. 네트워크를 통해 다른 컴퓨터의 메모리에 직접 접근할 수 있게 해서 네트워크 지연을 크게 줄이고 데이터 전송 속도를 향상시키는 RDMA (Remote Direct Memory Access)같은 기술과 GDS, DPDK 등이 그 예인데, 이러한 기술이 어떤 기술이고 어떻게 활용되는지 간단히 알아보겠습니다.

■GPUDirect Storage (GDS)

GDS는 NVIDIA가 개발한 기술로, GPU와 스토리지 사이의 데이터 전송 경로를 최적화하기 위해 탄생했습니다. GDS 기술 덕분에 GPU가 데이터를 직접 읽고 쓸 수 있게 되어, CPU를 거치지 않고 데이터를 직접 처리할 수 있게 되었습니다. GDS는 GPU 메모리와 NVMe 스토리지 간의 직접적인 데이터 전송을 가능케 하여 데이터의 복사나 이동에 드는 시간과 자원이 크게 줄여주고요. 덕분에 AI 작업 성능이 월등히 향상되는 효과를 누릴 수 있습니다. 게다가 데이터 전송 과정에서 발생하는 지연 시간과 CPU 부하를 줄여, 전반적인 시스템 성능을 향상시켜주기 때문에 대규모 데이터 셋을 다루는 AI 애플리케이션에서 특히 유용합니다.

■Data Plane Development Kit (DPDK)

DPDK는 고속 네트워킹 성능을 제공하기 위해 개발된 소프트웨어 개발 키트로 네트워크 패킷 처리 성능을 극대화하기 위해 CPU를 보다 효율적인 사용하는 데에 초점이 맞춰진 기술입니다. DPDK는 네트워크 패킷을 직접 CPU의 캐시 메모리로 라우팅함으로써, 운영 체제의 커널을 우회합니다. 이를 통해 데이터 패킷 처리의 오버헤드를 줄이고, 네트워크 I/O 성능을 향상시켜줍니다. 그래서 네트워크 기반의 스토리지 시스템에서 DPDK를 사용하면 네트워크 전송 속도가 향상되고, 시스템의 전체적인 데이터 처리 능력이 증가게 되고요. AI 애플리케이션에서 데이터 전송 속도 향상에 크게 기여합니다.

여기서 GDS는 NVIDIA의 GPU 서버가 널리 보급되면서 많이 알려진 기술인 반면, DPDK는 다소 생소한 기술이라고 생각하시는 분들이 계실 것 같아 DPDK에 대해 좀 더 자세히 알아보겠습니다.

AI를 위한 스토리지에 DPDK가 중요한 이유는 무엇일까요?

DPDK의 핵심 기능은 네트워크 상에서의 데이터 처리시 발생할 수 있는 병목현상을 줄임으로써 네트워크 대역폭을 최대한 많이 사용할 수 있게 도와주는 것, 그리고 CPU 자원을 보다 효율적으로 사용할 수 있도록 돕는 것입니다. 이 두 가지 기능이 AI를 위해 스토리지의 성능을 향상시킬 수 있는데요. 하나씩 정리해 보면 아래와 같습니다.

① 네트워크 병목현상 해소

스토리지에서 서버로의 데이터 전송 시, 네트워크 인터페이스 카드(NIC)의 대역폭이 충분하지 않으면 데이터 전송 속도가 제한됩니다. 대규모 데이터를 빠르게 전송해야 하는 AI 작업에서 이는 병목현상을 유발할 수 있습니다. 게다가 전통적인 네트워크 스택에서는 운영 체제의 커널을 거쳐 네트워크 패킷을 처리합니다. 이 과정에서 발생하는 ※ 커널 모드 스위칭과 같은 오버헤드가 성능 저하의 원인이 될 수 있습니다.

※ 여기서 잠깐! 커널 모드 스위칭이란? ※

- 커널 모드 스위칭

운영 체제는 크게 커널 모드와 사용자 모드 두 가지 모드로 작동. 커널 모드에서는 시스템의 핵심 기능을 수행하며, 사용자 모드에서는 일반 애플리케이션을 실행함. 전통적인 네트워크 스택에서 네트워크 인터페이스 카드(NIC)가 데이터 패킷을 수신하면, 이 패킷은 먼저 운영 체제의 커널로 전달되며 커널은 패킷을 검사하고, 필요한 네트워크 처리(예: IP 주소 및 포트 번호 확인, 라우팅 결정 등)를 수행.

- 커널 스위칭 과정

사용자 모드에서 실행 중인 애플리케이션이 네트워크 데이터를 수신하거나 전송하려 할 때, 시스템은 사용자 모드에서 커널 모드로 전환해야 하는데 이 전환 과정이 '커널 모드 스위칭'임. '커널 모드 스위칭'은 시스템 리소스를 상당량 소모하는데, CPU는 현재 실행 중인 태스크의 상태를 저장하고, 커널 모드로 전환하여 네트워크 스택을 실행해야 하기 때문. 그래서 커널에서는 패킷의 유효성을 확인하고, 어떤 애플리케이션에 패킷을 전달할지 결정하며, 이 과정에서도 추가적인 시간이 소모됨. 이후 처리가 완료되면, 시스템은 다시 사용자 모드로 돌아가 애플리케이션 실행을 계속하게 됨.

그래서 DPDK를 사용하는 애플리케이션은 운영 체제의 커널을 거치지 않고 직접 네트워크 인터페이스 카드(NIC)와 통신합니다. 이를 통해 커널 모드 스위칭과 관련된 오버헤드를 제거할 수 있고요. 또한 DPDK는 직접적인 메모리 액세스(DMA)를 사용하여 네트워크 패킷을 애플리케이션의 메모리 공간으로 빠르게 전송하는데, 이 방법은 데이터를 사용자 공간의 메모리로 직접 옮기는 것이기 때문에 커널을 경유하는 것보다 훨씬 효율적입니다. 그리고 DPDK는 네트워크 패킷의 수신, 분류 및 전달을 빠르게 수행할 수 있어 고속 네트워킹 환경을 구현할 수 있도록 도울 수 있고, 데이터센터나 클라우드 환경에서 AI 및 빅데이터 처리에 있어 성능상의 이점을 제공합니다.

② CPU 자원의 효율적 활용

AI 작업 중 GPU가 주된 계산 작업을 처리하는 동안, CPU는 DPDK를 통해 네트워크 트래픽 관리와 같은 작업을 처리할 수 있습니다. 이렇게 하면 CPU가 네트워크 데이터를 빠르고 효율적으로 처리하여, 전체 시스템의 성능과 반응성을 향상시킬 수 있습니다.

그리고 DPDK를 사용함으로써 네트워크 데이터 처리에서 발생할 수 있는 병목현상을 줄일 수 있습니다. 이것은 대규모 데이터 셋을 다루는 AI 분석에서 특히 중요한데, 데이터가 서버로 더 빠르게 전송되면 GPU는 더 많은 데이터를 신속하게 처리할 수 있기 때문입니다.

마지막으로, DPDK를 사용하면 GPU가 AI 분석에 집중하는 동안 CPU를 네트워크 데이터 처리에 사용함으로써 시스템의 자원 분산 사용을 최적화할 수 있습니다. 이를 통해 전체 시스템의 부하를 균등하게 분산시키고, 각 컴포넌트의 성능을 극대할 수 있고요. DPDK 덕분에 스토리지는 CPU와 GPU가 각각의 장점을 살려 동시에 작업을 수행함으로써, 전체 시스템의 효율성이 향상된다고 보시면 되겠습니다.

4) 효율적인 데이터 관리

AI를 위한 스토리지에 있어서 효율적인 데이터 관리는 매우 중요한 요소입니다. 이를 위해 사용되는 기능이 오토 티어링(Auto Tiering)인데, 데이터의 사용 빈도와 중요도에 따라 다양한 스토리지 레벨 간에 데이터를 자동으로 이동시켜, 비용과 성능을 최적화하는 기능입니다. 오토 티어링이 가져다 주는 이점을 간단히 정리해보면 아래와 같습니다.

●성능과 비용의 균형을 맞춤

고비용의 고성능 스토리지 (예: NVMe SSD)는 빠른 데이터 액세스가 필요한 활발히 사용되는 데이터에 적합합니다. 반면, 일단 분석이 끝난 데이터는 상대적으로 저렴한 스토리지 (예: HDD 기반의 오브젝트 스토리지)로 옮겨져 장기 저장합니다. 이러한 데이터 이동을 자동화함으로써, 스토리지 비용을 최적화하고, 고성능 스토리지의 용량을 효율적으로 관리할 수 있습니다.

●데이터 접근성 유지

오토 티어링은 데이터의 접근성을 유지하는 동시에, 스토리지 비용을 절감합니다. 필요할 때 데이터를 빠르게 다시 고성능 스토리지로 가져올 수 있으므로, 데이터 사이언티스트는 데이터 관리에 대한 걱정 없이 분석 작업에 집중할 수 있습니다.

●자동화된 데이터 관리

오토 티어링 기능은 사용 빈도나 중요도 등의 기준에 따라 데이터를 자동으로 Hot, Warm, Cold로 분류하고 분류에 알맞은 저장 공간으로 데이터를 이동시킵니다. 덕분에 기업은 데이터 관리의 복잡성을 줄이고, IT 팀의 작업 부담을 경감시킬 수 있습니다.

●확장성과 유연성

AI 프로젝트는 시간이 지남에 따라 변화할 수 있으며, 데이터의 양과 종류도 계속해서 변화합니다. 오토 티어링은 이러한 변화에 유연하게 대응할 수 있게 해줍니다.

●데이터 보호와 복구

오브젝트 스토리지는 일반적으로 높은 내구성을 제공하며, 데이터 손실 위험을 줄이는 데 유리합니다. 따라서, 중요한 데이터를 오브젝트 스토리지에 보관하는 것은 데이터 보호 측면에서도 중요합니다.

여기까지의 내용을 스토리지 전문가 분들께서 더 알기 쉽게 자세히 설명해 주는 영상을 소개합니다. 제가 텍스트로 풀어서 설명한 내용을 간단한 도식과 함께 전문가의 생생한 설명으로 접해보시면 이해가 더 잘 될거고요. 시간도 그리 길지 않은 영상이니 많은 시청 부탁드립니다.

3. AI에 딱 맞는 스토리지, Hitachi Content Software for File의 강점

HCSF (Hitachi Content Software for File)는 히타치(Hitachi)의 고급 파일 스토리지 솔루션으로, 특히 대규모 데이터 셋과 관련된 메타데이터 처리에 강점을 가지고 있어 AI에 제격입니다. 지금부터는 HCSF의 주요 특징과 강점에 대해 자세히 알아보겠습니다.

1) AI에 적합한 고성능 병렬파일 시스템

HCSF는 WekaFS라는 고성능, 확장 가능한 병렬 파일 시스템을 사용합니다. 대규모 데이터 셋을 빠르게 처리할 수 있어 AI 및 빅데이터 분석에 적합한 WekaFS는 높은 I/O 성능과 낮은 지연 시간을 제공하며, 대용량 데이터 처리에 최적화되어 있습니다. 그리고 거대한 데이터 센터 환경에 적합하게 설계되었으며, 용량과 성능을 유연하게 확장해 나갈 수 있습니다.

2) 메타데이터 분산처리를 통한 성능 최적화

<이미지 출처 : devart Blog, Data Versus Metadata: An In-Depth Exploration>

●메타데이터 전용 서버 구축의 한계

메타데이터 처리를 위해 일반적인 중앙집중식 메타데이터 서버를 구축하면 이 서버가 메타데이터 처리에 대한 단일 장애 지점(SPOF : Single Point of Failure)이 될 수 있어 장애에 취약해지게 됩니다. 그리고 처리해야 할 메타데이터 양이 증가하면 메타데이터 서버의 부하가 증가함에 따라 성능이 저하될 수 있고, 고성능 스토리지와 메타데이터 서버 간의 네트워크 트래픽이 몰려 병목현상을 일으킬 수 있습니다.

●HCSF의 뛰어난 메타데이터 처리 능력

HCSF에서는 모든 노드가 메타데이터 처리 기능을 수행합니다. 덕분에 단일 메타데이터 서버에서 처리하는 것 대비 스토리지에 대한 부하를 크게 줄일 수 있다는 장점을 가집니다. 또한 시스템이 확장될 때, 메타데이터 처리 능력도 함께 확장되어 스토리지의 탄력성과 확장성을 향상시키며, 대규모 데이터 셋을 효율적으로 관리할 수 있게 합니다. 그리고 메타데이터 요청이 여러 노드에 분산되므로, 네트워크 병목 현상이 줄어들고 전반적인 시스템 성능이 개선되며 모든 노드가 메타데이터 서버의 역할을 수행할 수 있기 때문에, 단일 장애 지점이 없습니다. 이것은 스토리지의 전체적인 가용성과 안정성 측면에서 중요한 부분입니다.

3) 복합 워크로드 처리에 적합

<이미지 출처 : Buffalo Blog, IOPS vs Throughput>

●뛰어난 대용량 데이터 처리 능력(Throughput)

HCSF는 고성능 스토리지를 통해 대용량의 이미지 파일, 비디오 등을 빠르게 전송할 수 있는 높은 처리량을 제공합니다. 특히 대용량의 데이터를 신속하게 처리할 수 있는 AI 분석에서 최적화되어 있다고 할 수 있겠습니다.

●높은 IOPS 성능으로 소규모 데이터를 신속하게 처리

AI 분석에서는 작은 텍스트 파일 또는 데이터베이스 쿼리와 같은 소규모 데이터에 대한 빠른 읽기/쓰기 작업이 중요할 수 있습니다. 또한 HCSF의 높은 IOPS 성능을 바탕으로 규모 파일의 빠른 랜덤 액세스를 원활하게 처리할 수 있는데요. 이것은 AI 애플리케이션에서 다양한 크기의 데이터를 효율적으로 처리할 수 있는 중요한 능력입니다.

●복합 워크로드 처리를 위한 다양한 데이터 유형 지원

HCSF는 대용량의 이미지 또는 비디오 파일과 같은 데이터부터 소규모의 텍스트 파일까지 다양한 유형의 데이터를 효과적으로 처리할 수 있는 유연성을 제공합니다. 그리고 HCSF의 고급 아키텍처는 다양한 데이터 처리 요구에 맞춰 성능을 최적화할 수 있도록 설계되어 AI 분석 작업에서 효율성을 크게 높입니다.

4) CSI(Container Storage Interface) 지원

<이미지 출처 : Tech Target, Hitachi Vantara follows the herd on Kubernetes storage>

클라우드 네이티브 환경에서 개발된 애플리케이션에 AI 기능을 구현하려면, 결국 AI 분석도 컨테이너 환경에서 수행되어야 합니다. 그래서 스토리지가 쿠버네티스를 잘 지원해야 하고, 쿠버네티스에서도 스토리지 볼륨을 할당하는 데에 불편함이 없어야 하는데, 이를 위해 필요한 것이 CSI입니다.

HCSF는 CSI 플러그인을 사용해 정적(지속볼륨)과 동적(지속볼륨 클레임) 볼륨 프로비저닝을 지원합니다. 그리고 Read Write Many, Read Write Once, Read Only Many와 같은 볼륨 액세스 모드를 지원하며 필요에 따라 스토리지 용량을 쉽게 조정할 수 있고요. 이러한 특성 덕분에 개발자와 관리자는 CSI를 통해 컨테이너에 필요한 스토리지 볼륨을 쉽게 할당하고 관리할 수 있습니다. 즉, HCSF는 클라우드 네이티브 환경에서 개발된 AI 애플리케이션을 위한 스토리지 요구사항을 충족할 수 있고, 개발자들이 컨테이너 위에서 구동되는 애플리케이션에 AI 기능을 추가할 수 있도록 지원하는 데에 아무런 제약이 없다는 것으로 이해하시면 되겠습니다.

4. 결론 : 역량있는 AI 스토리지 공급사, 어떤 기준으로 선택해야 할까?

지금까지 AI를 위한 스토리지가 갖춰야 할 요건은 무엇이고, 그 요건에 잘 부합할 수 있는 스토리지가 HCSF인 것을 알아봤는데요. 그런데 중요한 것은, HCSF와 같은 거대한 스토리지 시스템은 기업의 IT 담당자가 벤더에 발주 넣고, 제품이 도착하면 전원켜고 혼자 뚝딱 설정해서 사용할 수 있는 그런 간단한 시스템이 아닙니다. 기업이 원하는 AI가 어떤 형태이고, 어떠한 데이터 셋이 필요하고, 그 데이터 셋을 구성하기 위한 데이터는 어떤 소스로 부터 수집해야 하는지, 기존에 기업이 운영하던 시스템과 어떻게 연계할 것인지에 대한 종합적인 방안이 필요합니다.

그래서 AI를 위한 스토리지는 반드시 AI 인프라 구축 경험이 풍부한 곳을 통해 공급받아야 하고, 전문 기술인력을 충분히 갖춘 업체를 선택해야 하는데요. 국내 시장에 HCSF를 공급하고 있는 효성인포메이션시스템의 HCSF 구축 사례와 함께, 스토리지 전문 기술인력의 수준은 어느 정도인지 알아보겠습니다.

1) 효성인포메이션시스템의 HCSF 구축 사례

●업스테이지

업스테이지는 인공지능 거대 언어 모델(LLM)과 문서 자동화(DocAI) 분야에서 세계 최고 수준의 기술을 보유한 국내 AI 스타트업으로, 올해 3월 카카오톡에 업스테이지의 OCR 기술과 ChatGPT를 더한 AskUp(아숙업)을 런칭했습니다. AskUp은 사용자가 문서의 사진을 찍거나 전송하면 그 내용을 읽어 이해하고 답변할 수 있는 서비스로 출시 5개월만에 130만 명의 사용자를 확보한 국내 대표 AI 서비스로 자리잡았으며, 최근에는 업스테이지가 개발한 생성 AI 모델이 세계 최대 머신러닝 플랫폼 허깅페이스에서 운영하는 ‘오픈 거대 언어 모델(LLM) 리더보드’ 평가에서 72.3점을 획득해 1위를 차지, OpenAI의 GPT-3.5보다 성능이 뛰어나다는 평가를 받았습니다.

이렇게 활발히 AI를 연구하고, 뛰어난 성과를 내고 있는 업스테이지는 한 단계 발전된 AI 비즈니스를 선보이기 위해 효성인포메이션시스템으로부터 HCSF를 공급받았는데요. 과거 NAS를 운영했을 때와 비교해 스토리지 성능이 크게 향상되었고, CSI 플러그인을 활용해 개발자가 IT 인프라 담당자의 도움 없이 손쉽게 쿠버네티스 환경에서 필요한 스토리지 볼륨을 할당함으로써 AI 개발 작업에 집중할 수 있게 된 것에 크게 만족했다고 합니다. 즉, 업스테이지는 HCSF를 도입해 성능과 운영 측면에서 모두 만족스러운 성과를 거둔 셈이라고 할 수 있겠습니다.

●초 고성능 인프라 제공 사례

이번에는 고성능 스토리지 인프라가 필요했던 고객의 사례입니다. 기존에 하둡과 NAS 스토리지를 사용하던 이 고객은 수집되는 데이터의 양이 크게 증가해 데이터 분석 시간이 지체되어 고객의 요구사항을 맞추기 위해 수백대의 컴퓨팅 자원을 추가로 도입해야 했습니다. 그래서 고객은 GPU 서버와 함께 HCSF를 도입, 수백대 분량의 컴퓨팅 자원을 소수의 GPU 서버 노드와 HCSF 노드만으로 고객이 요청한 시간에 데이터 분석을 마칠 수 있었다고 합니다.

●LLM 프로젝트를 위한 통합 AI 인프라 구축 사례

또 다른 사례는 스토리지에 더해 AI를 위한 인프라 전체를 구축한 사례인데요. 효성인포메이션시스템은 앞서 언급한 HCSF 스토리지 뿐만 아니라 NVIDIA GPU 서버, 고성능 네트워크 인프라까지 포함된 통합 AI 인프라를 온프레미스 데이터센터에 구축하여 고객이 LLM 프로젝트를 성공적으로 완수할 수 있는 기반을 마련했습니다. 이것은 효성인포메이션시스템이 AI를 위한 스토리지 뿐만 아니라 AI 인프라 전체 스택을 구축할 수 있는 역량이 있다는 것을 보여주는 사례라고 할 수 있습니다.

2) 효성인포메이션시스템이 보유한 AI 인프라 구축 전문인력의 경쟁력은?

앞서 언급한 AI 인프라 구축 사례는 모두 효성인포메이션시스템의 전문가들이 고객 별 사전 컨설팅, 설계, 구축, 유지보수까지 모두 수행한 사례입니다. 보통 AI 인프라에 필요한 하드웨어와 소프트웨어는 글로벌 솔루션들이 많고, 국내 파트너들은 이 솔루션을 가져다가 글로벌 구축 사례를 기반으로 프로젝트를 수행하는 것이 일반적인데요. 하지만, 이러한 글로벌 사례는 국내가 아닌 국외 사례이기 때문에 국내 실정에 잘 맞지 않을 수 있습니다.

그리고 글로벌 구축 사례를 수행한 인력은 해외 인력이기 때문에 국내 기업들이 그 전문 해외 인력들에게 제대로 된 서비스를 받기도 어렵습니다. 결국, 원할한 프로젝트 수행을 위해서는 국내 엔지니어들을 통해 서비스를 받아야 하는데, 경험이 별로 없는 엔지니어라면 성공적인 프로젝트 구축은 어려울 것이 자명합니다.

하지만 효성인포메이션시스템은 앞서 보신바와 같이 순수 국내 전문인력을 통해 AI에 최적화된 스토리지 구축부터 통합 AI 인프라 구축까지 다양한 프로젝트를 수행해 왔습니다. 해외 솔루션 벤더에서 설계한 아키텍처를 가져다가 고객의 환경에 구현하고 운영하는 것이 아닌, 처음부터 직접 고객의 요구사항을 분석해 아키텍처를 설계하고 필요한 하드웨어를 조달해 소프트웨어를 설치하고, AI 운영 환경을 구축하고, 유지보수까지 책임지고 있습니다. 따라서 효성인포메이션시스템의 엔지니어 경쟁력은 매우 높은 수준으로 봐도 되겠죠?

AI 자체 구축을 고민 중인 기업이라면 AI를 위한 스토리지부터 GPU 서버와 네트워크까지 폭넓은 경험을 보유한 효성인포메이션시스템을 꼭 후보에 넣고 검토해 보실 것을 권합니다.

지금까지 말씀드린 내용을 보다 알기 쉽게 효성인포메이션시스템의 전문가들이 설명해 주는 영상을 준비했습니다. 아래 링크에서 자세한 내용을 확인해 보시기 바랍니다.

이 콘텐츠가 AI 인프라 구축에 고민이 많은 IT 담당자 분들께 조금이나마 도움이 되었기를 바랍니다. 끝!

AI를 위한 스토리지 도입 시 검토해야 할 요소는?

3개의 댓글이 있습니다.

쪽지 보내기

댓글 남기기

쪽지 보내기

댓글 남기기

쪽지 보내기

댓글 남기기

댓글 남기기

클라우드마켓

마켓플레이스

브랜드별 제품

AI를 위한 스토리지 도입 시 검토해야 할 요소는?

3개의 댓글이 있습니다.

댓글 남기기

댓글 남기기

댓글 남기기

댓글 남기기