Arrowhead의 장애와 용장성

1.
무장애를 자랑하던 동경증권거래소의 Arrowhead가 장애를 일으킨 때는 지난 2월 2일입니다. 이 날 장애때문에 전체 주식중 10%가량 오전거래가 이루어지지 않았습니다. ? 도쿄증권거래소는 이 날 장애로 두가지 어려움에 직면하였다고 합니다. 첫째는 오사카증권거래소와의 합병 둘째는 Arrowhead의 수출입니다. 그래서 신속히 장애경과를 발표하고 몇 일전 장애원인을 분석한 자료를 공개하였습니다.

TSE가 16일 발표한 장애분석 보고서는 아래와 같이 원인을 분석하고 있습니다.

?The reason for the failure in said system was that TSE employees determined that there were no problems with the system without actively confirming system status despite the possibility of a hardware failure affecting business operations of said system which is of great importance at the core of the Japanese securities market. This was rooted in overconfidence in said system arising from efforts put in before and after launch of said system such as high reliability secured by triply redundant servers, and frameworks and systems built to unerringly identify failures through implementing failure diagnostic tools.

triply redundant servers에 대한 운영자의 과신이 장애를 일으킨 원인이라고 합니다. Redundance는 Arrowhead를 개발한 후지쯔가 자랑스럽게 자랑하였던 Primeserver의 핵심기능입니다. 그런데 Redundance가 동작하지 않았던 것이 원인입니다.

2.
이상의 발표를 보고 일본 ITPro는 아래와 그림과 같은 의문을 제기합니다.


東?で大規模システム障害 初動??から浮上する「三つの疑問」라는 글을 통해 1)3중구조로 된 서버중 하나에서 장애가 발생하였는데 왜 나머지까지 장애로 발전하였는지 2)자동전환을 확인하는 프로세스 3)장애 확인을 하고 수동으로 예비서버로 전환하는데 왜 1시간이 걸렸는가라는 의문을 제기하고 있습니다.이상의 의문은 Redundance를 두고 하는 말입니다. Redundance를 한자어로 표현하면 용장성이라고 합니다. 이런 이야기가 엔지니어링에 있다고 합니다.

신뢰성공학에서 용장설계 또는 용장방식이란 ‘시스템의 구성부분에 몇 가지의 요소 또는 수단을 여분으로 부가해 그 일부에 고장이 발생해도 전체가 고장으로 되지 않는 방법’이나 ‘같은 기능을 가진 몇 가지 여분의 수단을 준비해 신뢰성을 향상시키려는 것’ 등으로 정의되고 있다. 즉 시스템의 기능면에서 보면 여분의 것, 없어도 되는 것을 부가함으로써 시스템의 신뢰성을 향상시키려는 수단이 바로 용장화다. 이같이 오동작의 발생을 완전히 없애는 것은 불가능하다는 입장에서 하드웨어나 소프트웨어를 용장화해 신뢰성 향상을 기한 것이 폴트 톨러런트 시스템이라고 하는 것이다.
공격적인 노이즈 대책중에서

위의 글에서 소개한 용장의 종류입니다. 이번 Arrowhead의 장애는 하드웨어의 용장입니다.

신뢰성공학에서 말하는 이야기를 잘 보면 일상에서 자주 접하는 이야기들입니다. 특히 원자력의 냉각장치를 설명할 때 나오는 이야기들입니다.

일본은 TSE의 장애를 통해 과도한 신뢰를 하지 말라는 교훈을 얻은 듯 합니다. 그래서 Redundance Risk라고 표현을 합니다. 신뢰성을 높이기 위해 이중화, 삼중화를 하여 기술적으로 완전해 보인다고 하더라도 기술적 목표대로 동작하지 않는 경우가 다수 발생하기 때문입니다.

東?がはまった、冗長構成に?むリスク

또한 개발은 최고로 훌륭한 팀으로 추진을 하지만 운용은 여러가지 이유로 하대하는 경향을 보인 것은 아닌지 자문하자고 합니다. 앞서 보고서를 보시면 Arrowhead를 운용하는 회사는 TSE가 아니라 TSE의 자회사입니다. 금융감독위원회가 농협장애를 보고 전자금융감독규정을 개정한 것과 같은 배경입니다. 다만 한국은 감독기관이 직접 시장에 개입하여 규정을 변경하였지만 일본은 그렇지 않은 점만 다릅니다.

Exture+를 추진하고 있는 한국거래소가 새겨보아야 할 사건이 아닐까 합니다.

Leave a Comment

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다

이 사이트는 스팸을 줄이는 아키스밋을 사용합니다. 댓글이 어떻게 처리되는지 알아보십시오.