정보시스템 운영관리지침 – 3.정보시스템 운영상태 관리

정보시스템 운영관리지침 – 3.정보시스템 운영상태 관리

연재중인 이전 글 보기

 

전산팀의 업무중 반복적이고 시간을 많이 들이는 것 중 하나는 점검입니다. 지침상에서는 운영상태관리라고 되어 있지만, 결국에는 매일하는 점검이죠.

운영상태관리는 주기적으로 정보시스템을 모니터링하고 이를 기록하며, 이를 통해서 이상징후를 미리 발견하여 사전에 조치하거나 장애를 발견했을 때에는 신속한 조치가 이루어질 수 있도록
하는 것이 목적입니다.

이번 글에서는 정보시스템 가용성을 확보하기 위한 운영상태관리에 대한 방법에 대해서 알아보도록 하겠습니다.

정보시스템의 운영상태를 관리하는 것은 항상 최적의 이용 가능한 상태를 유지하기 위해서 입니다. 현재의 운영상태를 모니터링하고, 데이터를 누적해서 그 결과를 가지고 향후 정보시스템 운영을 개선하고, 성능향상계획이나 장애예방대책, 용량계획 등을 체계적으로 수립할 수 있기 때문입니다.

  

3. 정보시스템 운영상태관리

1.역할
: 지침에서는 정보시스템 운영상태관리를 위한 역할을 3가지로 나누어 설명하고 있습니다.

       가) 운영상태관리 책임자

 요청된 운영상태관리 대상에 대한 정책 수립 및 수립된 정책의 반영, 변경, 통제 업무

 운영상태관리에 필요한 자원 및 인력 계획 수립

③ 통합관리 콘솔이 설치된 경우에는 통합 운영상태관리 관련 정책 수립 및 통제 업무 외에 자동화 구현 가능성 검토, 테스트, 적용 업무

나) 운영상태관리 담당자

① 운영 상태에 대한 정보를 수집 및 분류하는 업무

② 보안 침해사고를 포함한 이상 징후 발견시 해당 내용을 처리할 수 있도록, 해당 업무 담당자에게 해당 내용을 통지하는 역할

다) 운영상태관리 요청자

① 운영상태관리 관리 대상의 신규 등록, 변경, 삭제 요청

② 운영상태관리 관리 항목의 신규 등록, 변경, 삭제 요청

 2.산출물

가) 운영상태관리 요청서

① 운영상태관리 요청자의 인적사항 및 연락처

② 운영상태관리 대상 시스템의 일반적 정보 및 용도

③ 운영상태관리 대상별 관리 요청 항목 및 요청 사유

④ 관리 항목에 대한 운영상태관리 적용 기간 등

나) 운영상태관리 현황보고서

① 운영상태관리가 적용된 대상 자원의 일반 정보
– 대상 자원명 또는 시스템명, 용도, 담당자의 인적 사항 및 연락처

 운영상태관리 요청 항목 및 임계치, 데이터 수집 주기

 운영상태관리 요청 항목이 비정상 상태일 때 통지 방법 및 연락처

④ 운영상태관리 항목의 적용 기간

다)   운영상태관리 기록대장

 운영상태관리 수행 중 비정상 상태 발견 시간

② 비정상 상태의 상세 내용 또는 특이 사항

③ 비정상 상태에 대한 담당자 통지 여부

 3.운영상태관리 대상 및 관리항목

가) 서버 (세부적인 관리항목은 4.정보시스템 운영상태관리지침을 참고하세요.)
: 업체마다 다르겠지만, 개인적으로는 60%이상 넘어가면 업그레이드나 증설을 검토하고, 80%를 넘어가면 교체를 검토합니다.

 CPU : CPU사용률을 확인하여
장시간 CPU사용율이 80%이상을 넘어간다면 해당 프로세스를 확인해 보세요. 실제로 사용율이 높다면 시스템을 상위시스템으로 교체를 검토해 보세요.

② 메모리 :
메모리 사용율이 80% 이상일 경우, 해당 프로세스를 확인해 보세요. 메모리에 상주하여 80%이상 계속 유지하는 프로그램도 있으니 참고하세요.

 내장디스크 :
IO
시간이나, disk 사용율 등을 모니터링해서 저장공간이 20% 미만이 될 경우 증설을 검토해 보세요. IO가 많을 경우 디스크나 컨트롤러의 전송속도를 확인해 보시고, IO가 많을 경우 상위 제품으로 교체나 SSD등으로의 교체 등을 검토해 보세요.

 네트워크 연결 상태

⑤ 파일시스템

⑥ 로그파일

⑦ OS 프로세스

⑧ 비정상 프로세스

나) 네트워크

관리항목

설명

네트워크 장비

연결 상태

–서버간의 커뮤니케이션 정상 여부

서버의 네트워크

포트 상태

–서버간의 네트워크 포트 정상 여부

네트워크 대역폭(bandwidth) 사용율

–시스템 자원이 네트워크 트래픽을 처리하는 비율(%)

네트워크 Collision

–네트워크
Collision
이 시스템 성능에 저하를 주는 비율(%)

네트워크 I/O Error

–네트워크 패킷 오류가 발생하는 비율(%)

구간별 네트워크

응답시간

–네트워크 구간의 응답시간(msec)

초당 네트워크

패킷율

–초당 발생하는 모든 인터페이스에 대한 성공적인
패킷(에러나
Collision
없이 처리된 inbound
outbound
패킷)의 수

–얼마만큼의 네트워크 트래픽이 발생하는지를 확인, 초당 네트워크 구간 회선 사용율(%)

 

다) 스토리지
: 사용율 및 디스크응답시간, IO수 등을 모니터링하여 운영상태를 관리하세요.

관리항목

설명

총스토리지
사용율

가용율

–총 스토리지 사용율(%)

평균 디스크 응답시간

–디스크 응답시간(msec)

Cache Hit Ratio

Cache 적중율(%)

초당 디스크 I/O

–초당 발생하는 디스크 I/O

 

라) DBMS

관리항목

설명

DBMS 엔진 상태

DBMS 데몬
등의 정상 가동 여부

DB I/O

–초당 발생하는 DB I/O

가용 테이블 저장공간

–테이블스페이스에서 사용 가능한 블록의 공간

가용 로그 저장 공간

–로그 테이블스페이스에서 사용 가능한 블록의
공간

DBMS 로그

DBMS에서
발생되는 로그

메모리 적중율

–메모리
Cache
적중율(%)

평균 Lock 대기율

Lock
얻기 위해 대기중인 요청 비율(%)

 

마) 미들웨어

관리항목

설명

미들웨어엔진상태

미들웨어
데몬 등의 정상 여부

서비스큐잉/Thread상태

–온라인 트랜젝션
대기상태 및 Thread

초당처리건수(응답시간)

–초당 트랜젝션
처리건수(msec)

에러 및 ABEND로그

–예외 상황에서 발생하는 에러로그

 

바) 응용소프트웨어

관리항목

설명

각종응용 소프트웨어

엔진 상태

–응용소프트웨어 데몬 등의 정상 여부

응답시간

–해당 어플리케이션의 응답시간(msec)

CPU 점유율

–해당 어플리케이션의 CPU 점유율(%)

초당 처리 건수

–해당 어플리케이션의 초당 트랜젝션 처리건수

 

사) PC

관리항목

설명

백신설치상태

–사용자 PC
백신 설치 유무

중요패치적용상태

OS, 백신
등 패치 적용 유무

바이러스감염상태

–사용자 PC
바이러스 감염 유무

 

아) 기타

관리항목

설명

배치에러율

–배치 작업의 에러 유무

배치 로그

–작업 Log
로그

백업성공여부

–백업 성공 유무

백업로그

–백업 로그

 

운영상태관리 프로세스
:지침상에서는 운영상태관리 프로세스를 다음과 같이 세부프로세스로 구성하고 있습니다. 일반적인 절차이므로 향후 운영상태관리 절차를 세우실 때 참고하시면 되며, 세부적인 내용은 지침을 참고해 주세요.

image001

 5.수집 / 분석 / 활용 방안
    : 수집 / 분석 / 활용방안 예시는 게시물에 첨부하도록 하겠습니다. 예시에서는 관리항목, 수집주기, 분석주기, 활용방안 등에 대해 표로 정리하여 보여주고 있으니 참고하시기 바랍니다.

가) 수집

① 수집되는 주기는 해당 시스템에 부담이 되지 않도록 주기를 정하는 것이 좋습니다. 하지만, 장애확인을 위해서나, 용량관리를 위해서 담당자가 상황에 따라 조정하면 됩니다.

② 수집주기 예시에서는 CPU, 네트워크장비 연결상태, 엔진상태 등의 주요관리항목은 수집주기를 15초 정도로 짧게 하고, 메모리,디스크, 스토리지, 로그파일, 응용소프트웨어 등은 60초의 주기,로그 등은 수집주기를 1800초 이상으로 수집하고 있습니다.

③ 모니터링된 항목의 중요도에 따라, 해당 담당자에게 통지하여 신속한 조치를 취할 수 있도록 해야 한다.

나) 분석

① 용량관리
– 수집된 로그 데이터 소스를 향후 시스템 용량 증설을 위한 목적으로 분석한다.(. CPU사용량, 파일시스템 사용량 등)

② 장애관리
– 수집된 로그 데이터 소스를 장애 원인 파악을 위한 근거 자료로 활용하기 위해 분석한다(. 서버주요 시스템 프로세스의 다운, DBMS 평균 Lock 대기율).

③ 성능관리
– 수집된 로그 데이터 소스를 성능측면의 튜닝 목적으로 활용하기 위해 분석한다(. 네트워크 구간별 응답시간, 스토리지 Cache Hit Ratio).

다) 활용

① 분석된 데이터로 용량증설, 장애예방 및 제거, 튜닝 등에 사용될 수 있다.

 

이번 글에서는 운영상태관리를 위한 행정이나 절차를 이야기하고 있습니다만, 실제로는 전산실에 직접 들어가서 온도가 적정한지 항온항습기의 배수관이나 급수관 주변도 살펴주시고, 배선상태 등 육안으로 모니터링 해야 하는 것들도 있습니다.

 개인적으로도 항온항습기 급수배관이 터져 전산실이 물바다가 된 적이 있는지라 출근하면 전산실에는 꼭 들어가서 확인을 합니다.
온도나 습도, 물 등은 전산 장애에 중요한 역할을 합니다.
이 부분은 전산실 환경감시시스템이 있으며, 통합모니터링 시스템에 포함하여 통합모니터링 할 수도 있습니다.

 그리고 시스템의 육안확인이 필요한 것은, 전산장비에는 외부로 상태를 나타내는 LED가 있습니다. 매일매일 육안으로 확인하다 보면 평소와 다르게 LED가 켜져 있거나 꺼져 있으면 해당 장비를 다시 한번 자세히 점검해 보시기 바랍니다.

 

또한 운영상태관리 목적에 따라서 수집 주기나 분석방법이 달리 하는 것이 효율적입니다. 저는 대부분 장애를 사전에 인지하는 목적입니다.
하지만, 성능향상이나 시스템에 영향을 주는 프로그램이나 프로세서, 특정 이벤트등을 확인하고자 한다면 그 방법은 좀 다릅니다. 이 부분은 byte님의 칼퇴를 위한 MS-SQL 포럼을 참고하시면 관련 글을 볼 수 있으니 참고하세요. ^^

 시스템 운영상태를 모니터링할 때에는 대부분 통합모니터링툴을 사용합니다..
저희도 Whatsup이나, 보안장비의 Dashboard 를 이용하여 주로 모니터링을 하고 있습니다만 이들 통합모니터링 툴이 한눈에 파악하기는 좋지만, 세부적인 부분은 확인하기 어렵기에 주기적으로 개별시스템에 직접 접속하여 확인을 하시기 바랍니다.

  지침을 참고하는 내용이다 보니 실무적인 내용이 좀 빠져 있는 것 같습니다. 글이 길어지는 것 같아서 다음에는 정보시스템 성능관리지침에서 실무적인 이야기를 할까 합니다.

 장황한 이야기는 아니고, 제가 경험한 것들이니 한번 참고하세요.

  

참고자료 : 정보시스템 구성 및 변경관리 지침(발행처 : 국무조정실, 정보통신부 발행:2005.12)

 

 

    About 부루스타

    부루스타

    Leave a Reply

    5 개의 댓글이 있습니다 - "정보시스템 운영관리지침 – 3.정보시스템 운영상태 관리"

    메일 알림 설정
    정렬:   최신 | 오래된 | 추천
    SharedIT

    전산꿀팁 이벤트 +5,000 Gpoint 가 제공되었습니다:)

    비밀번호

    저도 공부하는 맘으로 매회 정독 중입니다~

    DAHONG

    많은 공부가되었고 다음편도 기대됩니다 ^^

    wpDiscuz