주말에 AWS 버지니아 리전에 장애가 있었습니다.

관련 글 찾아봤는데 없네요. 혹시 링크 있으신분 전달 부탁 드려요.

대략 내용은 아래와 같습니다.

일시 : 8월 31일(토) 22:22 ~ 9월 1일(일) 06:00
내용 : 데이터 센터 전원 문제로 발전기 가동 되었지만 발전기 가동시간 내에 전원이 복구되지 않았음.
영향 서비스 : EC2, RDS, Workspace

AWS 장애가 심심치 않게 올라오네요.

그래서 또 클라우드 이전이 정말 답인가 고민하게 됩니다. 분위기상 휘말리는거 아닌지...
요즘 AWS에 대해서 유달리 관심이 많아지고 있습니다.

공부를 많이 해봐야겠습니다.

네, 공부는 정말 필요한것 같습니다. 5년 10년 뒤면 분위기 확 바뀔텐데 지금 알아두지 않으면 그때 갑자기 적응 할 수 있는게 아니여서 천천히 조금씩 지금 시작을 하는게 좋을것 같습니다. 화이팅~!!
클라우드로 가면 SLA가 높긴 하지만 이런게 단점이죠. 모니터링하기도 힘들고. 언제 복구될지도 깜깜하구요

클라우드 사용상의 우려사항이 이런건데요... 국내에 관련사가 많지는 않겠죠?

물리장비든 클라우드이든 장애에 100%는 없습니다..다만 SLA기준이나,DR등 다양한방법이있고 물리보다는 장애가 현저히 적은것은 사실입니다
전산에 발을 들이면 장애가 터지면 복구나 장애를 고치는데 머리가 아프죵~잘처리하셨으면 좋겠네요

인프라를 아마존에서 관리하여 온프레미스보다는 빨리 해결되긴해요.다만 얼마전 터진 일본동경쪽은 좀 심각했죠
AWS Support API 로 개발을 하셔야 해당 사항에 대한 지원이 가능할것 같은데

이것도 엔터프라이즈 서포트 여야 가능할 것 같네요;;;

대상이 있으면 인스턴스와 볼륨 교체 하셔야겠네요 ㄷㄷㄷ

다행히 대상은 없습니다.
6:22 AM PDT We are investigating connectivity issues affecting some instances in a single Availability Zone in the US-EAST-1 Region.

6:54 AM PDT We can confirm that some instances are impaired and some EBS volumes are experiencing degraded performance within a single Availability Zone in the US-EAST-1 Region. Some EC2 APIs are also experiencing increased error rates and latencies. We are working to resolve the issue.

7:37 AM PDT We can confirm that some instances are impaired and some EBS volumes are experiencing degraded performance within a single Availability Zone in the US-EAST-1 Region. We are investigating increased error rates for new launches within the same Availability Zone. We are working to resolve the issue.

8:06 AM PDT We are starting to see recovery for instance impairments and degraded EBS volume performance within a single Availability Zone in the US-EAST-1 Region. We are also starting to see recovery of EC2 APIs. We continue to work towards recovery for all affected EC2 instances and EBS volumes.

9:04 AM PDT Recovery is in progress for instance impairments and degraded EBS volume performance within a single Availability Zone in the US-EAST-1 Region. We continue to work towards recovery for all remaining affected instances and EBS volumes.

10:47 AM PDT We want to give you more information on progress at this point, and what we know about the event. At 4:33 AM PDT one of 10 datacenters in one of the 6 Availability Zones in the US-EAST-1 Region saw a failure of utility power. Backup generators came online immediately, but for reasons we are still investigating, began quickly failing at around 6:00 AM PDT. This resulted in 7.5% of all instances in that Availability Zone failing by 6:10 AM PDT. Over the last few hours we have recovered most instances but still have 1.5% of the instances in that Availability Zone remaining to be recovered. Similar impact existed to EBS and we continue to recover volumes within EBS. New instance launches in this zone continue to work without issue.

1:30 PM PDT At 4:33 AM PDT one of ten data centers in one of the six Availability Zones in the US-EAST-1 Region saw a failure of utility power. Our backup generators came online immediately but began failing at around 6:00 AM PDT. This impacted 7.5% of EC2 instances and EBS volumes in the Availability Zone. Power was fully restored to the impacted data center at 7:45 AM PDT. By 10:45 AM PDT, all but 1% of instances had been recovered, and by 12:30 PM PDT only 0.5% of instances remained impaired. Since the beginning of the impact, we have been working to recover the remaining instances and volumes. A small number of remaining instances and volumes are hosted on hardware which was adversely affected by the loss of power. We continue to work to recover all affected instances and volumes and will be communicating to the remaining impacted customers via the Personal Health Dashboard. For immediate recovery, we recommend replacing any remaining affected instances or volumes if possible.

요거는 장애 발생 후 이메일 받아서 있는데요. 이게 혹시 URL로 된거는 없으시죠? 이렇게 상세하지 않아도 되고 이런일이 있었다 정도만 있어도 좋은데...
1st 5stars
버지니아에서 생긴 일까지 챙겨야 하는 상황인가요...?? ㅠ

전산쟁이 해 먹기가 점점 더 어려워지는 세상이 되어 가는 것 같네요~

ㅋㅋㅋ 그러게요.
로그인하셔서 확인해보셔요

로그인 안해도 아래로 내리면 위 정보는 있어요 :)
현재는 복구 되어서 정상이라고만 나오는거 아닌가요? 장애에 대해 짧게라도 설명이 있는 페이지는 못 찾겠어요. ㅜㅜ

