레이턴시경쟁과 운영리스크

몇 달전 거래소의 신차세대시스템을 준비하는 분을 만날 기회가 있었습니다. 이런 저런 이야기를 나누다가 거래소경쟁의 핵심인 Latency가 나왔습니다.

“해외거래소처럼 장애가 나도 문제가 되지 않는다고 하면 KRX 시스템도 가장 최고로 만들 수 있죠. 그렇지만 KRX가 외국처럼 몇 일씩 장애가 발생하면 난리가 난다. 거래소 이사장의 자리가 문제가 된다.”

그러면서 덧붙이더군요.

“장애 대책을 위해 로그 한줄을 더하고 데이타 쓰기를 늦추면 그 정도의 속도는 나온다.”

이 때부터 얼마뒤 KRX가 신차세대시스템을 위한 파일럿프로젝트 결과를 발표하였습니다. 랩수준의 개발이지만 좋은 숫자를 보여주었습니다.

거래소 차세대계획, 어떻게 볼 것인가?

이상의 대화가 상징하는 범주는 성능과 신뢰성입니다.? 영어로 표현하면 Performance와 Reliability입니다. 시스템 특히 금융시스템이 추구할 수 있는 기술적 가치중 핵심입니다.? 흔히 금융회사들이 발주하는 프로젝트제안요청서를 보면 이렇게 표현합니다.

“성능은 좋으면서 안정적인 시스템.”

어떤 고객이, 어떤 사용자가 싫어하겠습니까? 그렇지만 두가지의 가치가 양립할 수 없는 경우도 있습니다. 금융산업중 트레이딩입니다. 트레이딩시스템을 메시지흐름으로 이해한다고 하면 성능을 측정하는 기준은 Throughput과 Latency입니다. 시세나 주문메시지를 얼마나 빨리, 얼마나 많이 처리할 수 있느냐가 성능의 기준입니다.

매매체결시스템은 트레이딩시스템과 복잡성을 놓고 비교할 때? 차원이 다릅니다. 더구나 시스템의 안정성이 시장의 안정성일 수 있습니다 .KRX의 Extude는 안정성을 높히고 장애가 발생할 때를 대비하려면 이곳 저곳에 같은 데이타를 저장하도록 하고 있습니다. 2중, 3중으로 비상상황에 대비를 하여야 합니다. DR센터용 데이타를 만들어야 하고 백업용 데이타를 만들어야 합니다. 만약 9마이크로초가 걸리는 일이 있다고 하면 27마이크로초가 걸릴 수 밖에 없습니다. DR처리가 OK, 백업처리가 OK되어야 다음 처리로 넘어갈 수 있을테니까요. 또한 복잡하기 때문에 정상가동을 위해서는 수많은 시험을 해야 합니다.? 테스트케이스가 많고 오랜 시간을 필요로 합니다.? TSE는 차세대를 시작하기 전부터 준비를 하였습니다.

아시아와 미국 및 유럽은 거래소를 다르게 바라보는 듯 합니다. 아마도 시장이 생기고 성장하고 발전하는 가운데 국가의 역할이 다르기때문입니다. 일본이나 한국은 주식회사라는 형식을 띠고 있지만 사실상 공기업입니다. 직간접으로 국가가 개입하고 있습니다. 만약 장애가 발생하면, 그것도 하루종일 거래가 중지된다고 하면 국가경제의 신뢰도에 영향을 준다고 생각합니다.

반면 미국 월스트리트나 영국 시티는 다른 듯 합니다. 거래소는 시장 참여자들의 경재와 협력으로 발전하였습니다. 완전히 사기업입니다. 국가는 관련 법과 감독규정으로 최소한으로 규제할 뿐입니다. 이 곳도 장애가 발생합니다. 한국이나 일본보다 더 자주 더 많이 발생합니다. 지난 몇 달동안 LSE와 Chi-X Europe는 몇 번의 기술적 장애를 겪었습니다. 그렇다고 장애때문에 시끌벅적하지는 않은 듯 하네요. 어찌보면 사기업의 장애일 뿐입니다.

The glitch marked the second outage for traders using the platform in less than a month. An outage of similar length in May was attributed to “human error” and had been only Chi-X Europe’s third in four years.? The LSE suffered an outage for more than four hours in February as it struggled to bet in a critical new, faster trading platform while Eurex, the derivatives arm of Deutsche B?rse, was forced to delay by a week the rollout of new trading software last November.

However NYSE Euronext encountered problems unrelated to technical upgrades in pre-market trading with its Arca trading system in March.
Chi-X Europe hit by technical glitch중에서

그렇지만 해외거래소도 장애대책이 점점 중요해진다고 합니다. 이유는 HFT나 알고리즘트레이딩과 같은 기계에 의한 거래가 늘었기때문입니다.

Technical glitches in the world’s markets structures have become more common as investors increasingly rely on super-fast computers and
telecommunications links for trading, and the number of potential trading venues rises.

“If you never change anything, you are less likely to have an outage,” said Ryland, “but our clients and shareholders demand that we change to remain competitive in a fast evolving marketplace”.

거래소의 고객인 트레이더들은 점점더 빠르게 시장에 접근할 수 있도록 요구합니다.? 예를 들면 이렇습니다. KRX의 매매체결시스템과 증권사시스템은 암호로 데이타를 주고 받아야 하고 방화벽을 의무적으로 놓도록 되어 있습니다. 이것이 지연의 요인입니다.? KRX가 고객들의 요청을 받아들여서 방화벽을 없애는 결정을 하면 속도를 대폭 개선할 수 있습니다. 그렇지만 운영리스크에 노출될 위험성은 높아집니다. 앞서 예를 들었던? HA를 위한 기능도 비슷한 경우입니다.

Ryland at Turquoise notes that the importance placed on technology-based innovation in the current market environment means the risk of outages and other failures is becoming an occupational hazard.

“Trading venues can achieve a lower latency by eliminating as many infrastructure layers as possible between the core of the matching engine and the broker system,” he said. “By removing bottlenecks and firewalls, there are no floodgates to protect against a misfiring algo, for example. The compromise between reliability and performance has shifted more towards performance due to the demands of exchange members.”

성능과 신뢰성사이에서 선택을 하여야 합니다. 또한 ‘빅뱅’방식의 차세대전략을 수행할 때 프로젝트계획과 일정이? 좀더 신중하게 수립하도록 하고 있습니다. LSE의 차세대전략은 빅뱅방식이었습니다. 윈도우 .NET에서 리눅스로 완전히 새롭게 개발하였기때문입니다. 이 때문에 LSE의 주된 고객들인 Sell Side는 충분한 시험을 요구하였다고 합니다.

The operational risk created by technology migrations and service enhancements has not escaped the sell-side. Following the Turquoise outage, brokers voiced their concerns over the MTF’s ‘big bang’ technology migration ? as opposed to a phased implementation ? during a meeting of trade body the Association for Financial Markets in Europe (AFME).

The trade body raised its concerns to the LSE via a letter and went on to facilitate calls between its members and the exchange following the initial testing periods. AFME is now working with the LSE to ensure the remaining testing periods are successful.

“Many brokers weren’t entirely satisfied with how the Turquoise migration was handled and the amount of testing time that the banks had,” commented?Andrew Wells, head of equity business strategy, EMEA at Citi. “However, as per the Financial Services Authority’s recent guidance, they did communicate the outage to the market in a timely manner.”

Wells added that ‘big bang’ approaches to technology migration could have knock-on effects for the price discovery process.

“On day one after the Turquoise migration, there was very little volume mainly due to the fact the brokers were hesitant to go with full volume. There is always nervousness when there are any pan-European exchange/MTF migrations or mandatory system upgrades,” he added. “Given the LSE has such large volume normally, any migration to a new platform will need to ensure volumes are maintained at pre-migration levels to ensure the quality of the LSE’s price formation is maintained especially as a number of other market participants rely on these prices.”
Performance vs. reliability: the exchanges’ challenge중에서

KRX가 Extude를 개통할 때 증권사의 요청으로 수차례 연기하여 개통한 것과 같은 이치입니다

우리나라를 대표하는 트레이딩시스템은 HTS입니다. HTS서비스를 위하여 증권사는 복수의 서버를 사용합니다. 몇 십대나 아니면 몇대냐의 차이가 있지만 예나 지금이나 달라지지 않았습니다. 몇 천부터 몇 만까지인 동시접속자를 처리하도록 합니다. 이 때 고객의 화면을 기준으로 Latency를 측정할 때 1초이내면 충분한 성능이라고 합니다. 신뢰성은 시스템이 주어진 조건이나 환경하에서 특정시간 동안 요구되는 의도된 기능을 수행할 확률입니다. 쉽게 말하면 장애/오류가 발생한 횟수로 따집니다. 10여년이 지나면서 HTS의 신뢰성은 높아지고 있습니다. 하드웨어가격이 떨어지면서 동시접속자를 적당히 조절하여 장애확률도 많이 떨어졌습니다. 높은 신뢰성도 제공합니다.

최근 Latency를 중심으로 한 기준이 핵심가치로 등장하면서 달라지기 시작하였습니다.?전통적인 HTS는 뒷전입니다. ELW VIP와 같은 속도에 민감한 서비스를 제공하여야 합니다.? 특히 Latency를 측정하는 기준이 마이크로초 혹은 나노초이면서 안정성을 동시에 만족하기가 쉽지 않습니다.? 더구나 HA와 관련된 기능을 어떻게 할지, 장애상황에 따른 대비책은 무엇으로 할지. 이 모두가 다 과제입니다.

저는 현재 사용하고 있는 HTS플랫품을 기준으로 하여 시스템을 설계하지 않았습니다. 국내에서는 한번도 사용하지 않았던 메시징미들웨어를 기초로 설계하였습니다.(* 현재 몇 회사에서 메시징을 개발하고 있다는 이야기를 듣고 있습니다.)? 앞서 표현을 따르면 ‘빅뱅’입니다.? 충분한 시험이 필요합니다.

앞서 거래소모델로 이야기했던 많은 과제들은 추상적인 과제가 아닙니다. 제가 만들고 있는 시스템의 과제입니다.

