SharedIT | 묻고 답하기(AMP)

RAID 5 구성된 하드 4개중 1개 불량...

요즘들어 질문을 많이 올리네요 ㅡㅜ...

HP서버(HP DL380p Gen8)중 RAID 5로 구성된 하드 4개중 1놈이 불량났습니다..

900MB 하드 4개로 구성되어있고.. 이중 3번째 하드가 불량입니다.

윈도우 서버 이벤트 뷰어에도 하드웨어 에러라고 로그에 표시되어있고..
실제 서버 LED도 주황불입니다. 오늘 점심시간을 이용해 서버 OFF하고 뺐다 다시 끼워도 봤고...

동일합니다. 불량은 맞네요.

문제는 실제 운영되고 있는 서버인만큼 다음주중에 교체진행 예정입니다.

실 데이터는 700GB정도.

검색해보니 RAID 5 는 서버전원 내리고 불량하드 빼고 새하드 넣으면 자동으로 리빌딩 한다고 여기저기에 올라와있긴한데....

실제 교체했을때 뻑이라도 나면.. 아아.. 님은 갔습니다.. 가 될거 같아서..

교체당시까지는 계속 운영을 해야되는 상황이라 교체당시에 서비스 내리고 백업을 해야할거 같은데

방법과 주의점이 있으시다면... 의견을 듣고 싶습니다.

7개의 답변이 있습니다.

wansoo
  0 추천 | 5년 이하 전
DL380은 핫스왑이 되지 싶은데...
서버 가동중인 상태에서 고장난 디스크를 제거하고 새 디스크를 장착하면 자동으로 rebuilding되면서 복구 되지 싶은데...
안된다면 다른 문제가 있는 걸로 보이네요.
전문 엔지니어에게 맡기는게 맞지 않을까 싶네요.
Andrew Gil
  0 추천 | 5년 이하 전
백업 꼭하세요.
레이드 깨지는경우가 흔하지는 않지만 잊을만하면 꼭 발생합니다
빨간신발
  0 추천 | 5년 이하 전
저도 유지보수업체에 주워들은 바에 의하면..
리빌딩중에 다른 디스크가 오류나는 경우가 종종 있다고...
보통 레이드를 처음 구성할때.. 같은 시기에 같은 공장에서 생산된 동일한 하드를 쓰기때문에...
수명이 비슷비슷한데.. 하나 고장나면 다른 디스크들도 고장날 확율이 높다고..
리빌딩전에 백업을 꼭 권하더군요...
혹시 모르니 여력이 되시면 백업하고 진행하시는게.. 좋을 듯 합니다..

낭만생선 | 5년 이하 전

말씀하신것처럼 Rebuild중에 깨지는 경우가 있죠. Rebuild시에는 기본적으로 Full Access가 일어 나기 때문이기도 하고 raid5의 구조적 문제이기도 하죠. Raid 10 구성에서 깨지는 경우는 단 한번도 없었는데 Raid 5나 50에서는 몇번 있었네요. 그런데 Raid10는 수백번중에 한번도 없었고 Raid 5나 50에서는 십수번중에 몇번이니.. 저는 백업이나 temp, 파일서버의 용도가 아니라면 Raid5는 권장하지를 않네요.
낭만생선
  0 추천 | 5년 이하 전
용도가 어떤 용도 이신가요?
I/O가 많은 DB나 여러대의 VM을 돌리고 있어서 i/o가 많이 일어나고 있다면 추천하지 않습니다.
EMC나 히타치 같은 별도의 콘트롤러가 있는 장비에서는 거의 발생하지 않는 일인데..

서버에 장착된 Raid Controller로 구성된 Raid5 같은 경우는 위의 상황에서 위험합니다.

Raid5 구성은 Rebuilding시 패리티 비트를 계산해서 넣어줘야 합니다.
이게 나머지 디스크들에 흩어져 있는것을 계산하는것인데..
이 계산과 운영에 필요한 I/O를 동시에 처리하다가 온전히 처리가 되지 않아 문제가 발생하게 됩니다.
Raid 가 구성된 상태에서는 그냥 값을 던지기만 하면 되기 때문에
Raid0와 거의 같은 처리가 되는데..
Rebuild 할때는 계산이 들어가기 때문에 위험합니다.
이론상 드리는 말씀이 아니라.. 수차례 경험담입니다.
앞서 말씀 드린 환경이라면 백업하시고 서비스 다운하셔서 Rebuild에만 집중 할수 있도록 해주세요.
그리고 만약 DB 환경에서 Raid5라면 Rebuild하는동안 정상 성능도 안나옵니다.

 
Genghis Khan
  0 추천 | 5년 이하 전
극히 일부이지만 간혹 전기적인 쇼트 문제가 발생될수 있습니다.
엔지니어를 했을때도  변수를 항상 염두합니다.
백업 후 진행하세요
그리고 hotswap 방식이여서 서버를 굳이 안내리셔도 됩니다.
수고하세요 
한그루
  0 추천 | 5년 이하 전
서버 운영중에 그냥 디스크 교체 하시면 됩니다.
핫 스페어가 없는것 같은데 운영 서버는 핫 스페어 하나를 보조로 구성해 놓으면 좋습니다.
이런경우 디스크 나가면 핫 스페어가 바로 자동 교체되고 나중에 고장난 디스크 교체하면됩니다.

현재는 사용하시다가 혹시라도 한 개이상의 디스크가 추가로 나간다면 데이터 다 날아가는거죠. 그래서 보통은 신청하면 4시간 안에, 8시간 안에, SBD'Same business day', NBD'Next Business Day' 이런 지원을 받습니다.

디스크 교체 중에 다른 디스크가 나가는 경우가 정말 정말 간혹 있습니다. 혹시 그런경우를 대비해야한다면 백업을 해야하고 백업하는데 시간이 많이 소요되니 미리 백업을 해놓고 디스크 교체할때 증분 백업을 하면 좋겠습니다.

디스크 교체하러 온 엔지니어들이 보통 백업 하라고 권고하고 디스크 교체중에 혹시나 다른 디스크가 고장나서 데이터 날아가면 책임 지지 못한다고 합니다. 엄청 겁나는 말 이죠. 그런데 그럴 확률이 매우 적어요. 그래도 백업은 하시는게...
 

아이언맨 | 5년 이하 전

장문의 글을 남겨주셨네요!! 좋은답변 감사합니다!!
차바라기
  0 추천 | 5년 이하 전
Raid5로 구성이 되었으면 장애난 디스크를 바로 교체를 하여도 무방합니다. 문제 없습니다.라이브상태에서도 무방 합니다.

아이언맨 | 5년 이하 전

감사합니다!! 다음주에 진행하기로 하였으니 그렇게 해보겠습니다!