SharedIT | 묻고 답하기(AMP)

서버의 "시스템이 비정상적으로 종료된 후 다시 부팅되었습니다." 에 대해...

점심시간 갑자기
서버 1대가 재부팅이 되었습니다.

원격상태로 보고 있었기 때문에, 물리적인 상황은 어떤것인지 모르겟습니다만,
단순한 팬오류나, 전기적 문제 등의 원인이겠지하고 로그를 보는데, 

단순히
[시스템이 비정상적으로 종료된 후 다시 부팅되었습니다.
이 오류는 시스템이 응답을 멈추었거나 손상되었거나 예기치 않게 전원 공급이 중단되면 발생할 수 있습니다.]

라고 로그가 남아있습니다.

UPS에 7개가 물려있고, 그중 1대만 꺼진것이기 때문에 전기적 결함은 아닌것같고
Management Homepage에서 봐도 특별한 오류가 없습니다.

이와같은 경우 어떤 이슈인지 모르겠으나, 
재부팅이 되었기 때문에, 보고서를 써야합니다...
유사한 사례에 대해 대응하신 경험이 있으신지요?

9개의 답변이 있습니다.

오늘을즐기자
  0 추천 | 약 5년 전
저도 비슷한 증상이 있어서, 보드, 하드, 케이블, 컨트롤러, 백플랜까지 몽땅 갈아 치운적이 있습니다.
하드웨어 에러 입니다.

그저멍하니 | 약 5년 전

몽땅.... 굉장히 큰 작업이엇겟습니다...
danis78
  0 추천 | 약 5년 전 | 제이컴즈 | 010-2871-8756
일단, 하드웨어 장애인지 부터 확인하셔야 합니다.
HP 서버라면 hp diagnostics tool 로 검사해보셔야 합니다.
https://www8.hp.com/us/en/campaigns/hpsupportassistant/pc-diags.html

하드웨어 문제가 아니라면 다른 어플리케이션 솔루션 로그들을 분석해봐야 겠죠.
윈도우 문제일 가능성도 있지만 메모리 덤프 파일을 분석해봐야 알죠.
서포터
  0 추천 | 약 5년 전
시스템 로그(각 벤더 하드웨어 권장 로그 + 윈도우 로그+ 덤프) 등을 수집 하여
벤더별로 나눠서 문의 하셔야 합니다만, 한국특성상 OS는 유지보수를 안맺기 때문에 OS에서 발생한 문제는 실상 대처가 어렵습니다.  그나마 하드웨어는 경우의 수가 적고 바로 표시 되기 떄문에 원인 찾기가 쉬운편 입니다.

우선 하드웨어 벤더측에 시스템 로그 수집 방법 을 문의 하신 뒤 전송하시는게 가장 낫지 싶습니다.

다만, 이곳에 올리신걸 보면  워런티 끝난 장비 + 유지보수 미계약 장비 같습니다만.. 이 경우 스스로 원인 파악 하시는건 매우 어려울 것 같습니다.
차바라기
  0 추천 | 약 5년 전
원인을 분석하기 힘들죠 ~덤프파일로그가 생기면 그파일을 분석해보는 방법밖에는 없네요
한그루
  0 추천 | 약 5년 전
심각한 문제 입니다. 재발 될 가능성도 많구요. 
서버의 Power supplier 문제 일수도 있고 , OS hang 문제 일수도 있을것 같습니다.
보고서도 보고서지만 장애가 재발 된다면 담당자가 변명 할게 없습니다.
IDC에도 방문해보시고 하드웨어 경고는 없는지 그 시간에 IDC 전원, 시스템 접근자 등 가능성들을 체크 해보십시요. 
Hardware firmware 도 최신 버전으로 모두 업데이트 되었는지 확인해보시고 안되어 있는게 있다면 모두 업데이트 하시는게 좋겠습니다.
 
낭만생선
  0 추천 | 약 5년 전
서버가 재부팅 되는 경우는 두가지의 경우가 있습니다.

1, OS단에서 발생하는 논리적 오류
 - 주로 드라이버 DLL 파일등이 문제가 있을 경우 발생 할수 있으며,
   블루스크린이 뜨면서 재부팅되며, 메모리 덤프로 정확한 원인을 알수 있습니다.

2. 하드웨어단에서 발생하는 오류
 - HP에는 ASR이라는 자동복구 기능이 있습니다.
   서버가 물리적으로 판단 했을때, 현재 정상적인 상태가 아니고 (예를 들면 Heng등)
   이대로 두는것보다 재부팅을 하는것이 좋다라고 판단 되면 자동으로 재부팅합니다.
   어떤 판단으로 재부팅을 하는지?는 하드웨어 메이커의 노하우입니다.
   고객이 할수 있는것은 이것을 Disable 할것인지, Default 상태인 현상태로 둘것인지 둘중에 하나입니다.
   또한가지 옵션은 BIOS의 F/W의 업데이트를 통해, ASR의 동작에 영향을 줄수도 있습니다.
   예를들면 서버가 정상인데 오탐지로 재부팅이 된것이라면, 이런부분이 FW에서 패치가 될수도 있다는것이죠.

서버에 보면 ILO 로그 보는곳이 있는데 여기에 ASR관련 로그가 있을겁니다.

낭만생선 | 약 5년 전

두번째의 경우일겁니다. 아마도..
davidkim
  0 추천 | 약 5년 전
저희도 HPE 서버에서 발생하고 있는 증상이네요.

Windows 로그는 딸랑 한줄이라, 원인 파악이 거의 불가능하며,
따로, 로그를 받을 수 있는 프로그램을 설치 후,
동일 증상이 일어나면 찾을 수 있을듯 합니다.

허접 답변이었습니다. ㅡㅡ;
 

그저멍하니 | 약 5년 전

AHS LOG를 보니 원인이 좀 나오긴합니다.
오늘도맑음
  0 추천 | 약 5년 전
hpe gen8 사용중인데 약 2주전 동일한 증상 발생하였습니다. 

윈도우 이벤트에서는 본문의 오류 외 다른 부분을 찾을 수 없었는데, 
ahs log 분석하니, 캐시 배터리 장애가 확인 되었었습니다.
 

그저멍하니 | 약 5년 전

저희도 AHS 분석해보니... 스토리지 카드의 F/W 가 충돌을 일으키는것으로 나오네요.

오늘도맑음 | 약 5년 전

그래도 발생 원인이 추정 되어져서 다행입니다.. 저희는 설비와 관련되어 있는 서버다 보니 펌웨어 업데이트는 먼나라 이야기 이네요..
wansoo
  0 추천 | 약 5년 전
서버 있는 곳으로 한번 가보셔야 좀 더 정확한 보고서를 적을 수 있지 않을까요..? ^^
서버 룸에 누군가가 작업하느라 들어 갔을 수도 있을 것 같고...
서버 전원 케이블 쪽에 접촉 불량 상태인데, 누군가가 건드렸을 가능성도 있을 것 같네요.
아니면 쥐 같은 짐승이 지나 다닐수도~ ㅎㅎㅎ
서버 외부 상황 점검부터 해 보셔야 할 것 같습니다~

그저멍하니 | 약 5년 전

서버실이 같은 건물에 있어 육안확인해보았습니다. 다행히 접촉불량이나, 누군가가 건드린것은 아닌것 같구요 FW 업그레이드 조치를 하라고 하네요.