SharedIT | 묻고 답하기(AMP)

딥러닝 회사 스토리지 구성 어떻게 해야하나요?

목표

  • 데이터 센터용 장비 구매 혹은 클라우드 서비스

요구조건

  • 모든 서버와 연결 가능해야 함.

  • 용량 확장성 가능해야 함.

  • 최대한 가격이 저렴해야 함.


현재 고가의 GPU 서버들이 여러 대 있습니다.

주로 이미지 데이터를 다루고 있습니다.


보통 이런 경우 스토리지 혹은 클라우드 서비스 이용 등 구성을 어떻게 하나요?

Tags : 태그가 없습니다.

10개의 답변이 있습니다.

request
  0 추천 | 6달 전

다들 답변 진심으로 감사드립니다.

deerokgo
  0 추천 | 6달 전

별도로 스토리지를 구성하는게 효율적입니다.

관리하기도 편리하고요.

클라우드 형태로 스토리지 구성을 하면 되고요.

스토리지는 크게 3가지 형태로 나눠집니다.

  • 1.블록 스토리지

  • 2.파일 스토리지

  • 3.객체 스토리지

3개 중에 적당한 것을 선택하면 되는데요.

보통 객체 스토리지 (오브젝트 스토리지)를 많이 사용하고 있습니다.

오브젝트 스토리지에서 많이 사용되는 오픈소스로 Ceph 가 있습니다.

aws에서 사용하는 S3와도 호환이 되는 것이라서 더욱 좋다고 보시면 되고요.

용량 등 확정 하신 후에 Ceph 설치 하시고, 사용하시면 됩니다.

설치와 사용법 등은 구글에 많이 나와 있으니 참고하시면 됩니다.

앵그리파파
  0 추천 | 6달 전

딥러닝 회사의 스토리지 구성은 데이터 저장 및 처리에 중요한 역할을 합니다. 일반적으로 딥러닝 회사는 다음과 같은 스토리지 구성을 사용합니다.

  • 1.분산 파일 시스템: 대용량 데이터를 저장하고 관리하기 위해 분산 파일 시스템을 사용합니다. Hadoop HDFS나 Ceph와 같은 기술이 널리 사용됩니다.

  • 2.클라우드 스토리지: 딥러닝 회사는 클라우드 스토리지 서비스를 활용하여 데이터를 안전하게 저장하고, 필요에 따라 확장할 수 있습니다. Amazon S3, Google Cloud Storage, 또는 Microsoft Azure Blob Storage 등의 서비스를 이용합니다.

  • 3.데이터베이스: 중요한 메타데이터와 결과 데이터를 저장하기 위해 데이터베이스 시스템을 사용합니다. 관계형 데이터베이스(예: MySQL, PostgreSQL) 또는 NoSQL 데이터베이스(예: MongoDB, Cassandra)를 선택할 수 있습니다.

  • 4.GPU 스토리지: 딥러닝 모델 학습에 사용되는 GPU 서버에서 데이터에 빠르게 액세스하기 위해 NVMe SSD와 같은 고속 스토리지 장치를 사용합니다.

  • 5.데이터 백업 및 복제: 중요한 데이터의 손실을 방지하기 위해 정기적인 백업 및 데이터 복제가 필요합니다.

  • 6.데이터 관리 도구: 데이터 카탈로그 및 메타데이터 관리 도구를 사용하여 데이터의 신뢰성과 가용성을 유지합니다.

  • 7.보안 및 규정 준수: 데이터 보안을 강화하고 규정 준수를 지키기 위한 데이터 암호화 및 접근 제어를 구현합니다.

  • 8.모니터링 및 성능 최적화: 스토리지 성능을 지속적으로 모니터링하고 최적화하여 딥러닝 모델의 학습 및 추론 과정을 개선합니다.

이러한 스토리지 구성은 딥러닝 회사의 데이터 관리와 분석 작업을 원활하게 지원합니다.  


고가의 GPU 서버에 이미지 데이터를 다룬다면 클라우드 스토리지나 GPU 스토리지가 적합할 것 같은데, 비용 측면에서 오히려 독이 될지 도움이 될지는 관련 업체와 협의를 통해 판단해야 할 듯 합니다. 

topkslee
  0 추천 | 6달 전

딥러닝 성능과 이미지 데이터를 다르신다면

object storage가 가장 맞을 것 같습니다.

object storage 밴더 몇곳에서 제안 받아보시면 좋을 정보 얻으실것 같아요

wansoo
  0 추천 | 6달 전

스토리지 선택은 가격이냐 성능이냐로 의해 결정되는 경향이 많지 않을까 하는 생각이 들고...

성능을 중시한다면 고사양의 고가 스토리지를...

성능보다는 가격을 중시한다면 저렴한 스토리지를...


모든 서버와 연결 가능해야 한다에서... 모든 서버라는게 동일한 LAN 내에 있는 로컬 서버인지, 여러 지점에 흩어져 있는 WAN, 인터넷 상의 서버인지에 따라서도 선택에 차이가 있을 것 같고요.

용량 확장성과 이미지 데이터를 다루고 GPU와 관련된 기계 학습용 자료들이라면 오브젝트 스토리지가 적절하지 않을까 하는 생각이 들어 보이고요.


클라우드 스토리지이냐 내부 구축 스토리지이냐 하는 선택에 있어서 비용을 고려한다면...

클라우드는 단기적으로 저렴하게 이용할 경우에 적절한 선택안이 될 수 있을 것 같고,

내부 구축 스토리지는 초기 구축 비용은 많이 소요되나 장기적( 3년이상 )인 관점에서 저렴하게 이용할수 있는 선택안이 될 수 있을 것 같아 보이고요.


클라우드 스토리지는 인터넷에 있는 저장 공간을 빌려 사용해야 하기 때문에 인터넷 성능, 인터넷 안정성에 영향을 많이 받을 수 있는 빌려 사용하는 저장 장치가 되겠고... 용량 및 사용 트래픽에 따라 요금이 많이 부과될 수 있는 방식이라 할 수 있겠고요.


내부 구축 스토리지는 내부 구축하여 직접 소유하는 저장 공간이기 때문에 내부 네트워크 성능을 충분히 발휘하여 안정적이고, 높은 전송 속도를 보장 받을 수 있는 저장 장치가 되겠고, 구축해 둔 용량 공간 내에서 요금 부담없이 마음껏 이용할 수 있는 장점이 있다 할 수 있겠고요.


관리면에 있어서 클라우드는 전문 서비스 업체에서 관리를 해 주기 때문에 관리에 대한 부담이 거의 없지만 내부 구축 스토리지는 관리를 직접 해야 한다는 부담을 가질 수 있겠고요.


오브젝트 스토리지가 용량 확장을 쉽게 할 수 있다는 장점이 있긴 하지만...

그렇다고 NAS 등의 파일 스토리지나 블럭 스토리지가 용량 확장이 불가하다는 의미는 아니고, 번거로운 점이 있고 일부 서비스 중단이 필요할 수 있다는 의미이기 때문에 용량 확장성을 어떤 관점에서 필요로 하는지에 따라서 오브젝트 스토리지가 아닌 파일 스토리지나 블록스토리지를 사용하는 것도 고려해 볼 필요가 있을 걸라 보여지고요.


장기적으로 저렴하고, 여러 서버에서 공유해서 사용하고, 이미지와 같은 파일들을 저장하고 있다면 적절한 성능을 낼 수 있는 가격대의 NAS를 도입하는 것도 괜찮은 방안이지 않을까 하는 생각이 드네요.


Simon.Park
  0 추천 | 6달 전

정답이라는 것은 없지만, 

대용량 이미지 데이터를 취급 하신다고 하면 클라우드를 사용하기에는 조금

무리가 있지 않나 생각이 드네요...

클라우드와 서버간의 데이터 전송량이 많을 경우는 요금 폭탄을 맞을 수도 있고,

속도도 보장을 하기 어렵거든요....

이런 내용도 검토 하셔서 결정 하시는게 좋을 것 같아요~

에이스퐝
  0 추천 | 6달 전

일단 솔루션 상담실에 글올려보시고요.

제 경험상 스토리지 확장성이 우수하고, 가격은 저렴할순 없지만..

일단 초기 스타트업 회사들은 대부분 클라우드 서비스를 이용합니다.

Genghis Khan
  0 추천 | 6달 전

가격이 저렴하면 그만큼에 Risk도 있으니 서비스 환경에 맞는 서비스를 구축하는게 맞을것 같네요

온프레미스 vs 클라우드 vs 하이브리드 ( 온프레미스 , 클라우드 ) 형태로 구성을 하는데 있어

여러 업체 견적 및 컨설팅을 받아 보세요

내부 구축 및 클라우드 형태로 구성하려면 HCI 도 괜찮구요

https://www.sharedit.co.kr/board/solutions


솔루션 상담실에 문의도 하시구요


차바라기
  0 추천 | 6달 전

어렵네요~~견적게시판에 문의 해보세요

명동쓰레빠
  0 추천 | 6달 전

솔루션상담실을 통해 전문회사의 상담을 받아 보시길 바랍니다.