1.
어느 날부터 자본시장과 관련한 뉴스들이 Hadoop을 다룹니다. NoSQL이라는 말도 우연히 들었지만 Hadoop는 진짜로 모르겠더군요. 사실 더 깊숙히 파고들어갈 시간도 없습니다. 당장 제가 먹고살 식량이 아니기때문입니다.
또 시간이 흐릅니다. 어떤 블로그를 보니 CME를 다루고 있습니다. 주제는 Hadoop입니다. Big Data시대 데이타, 특히 마켓데이타의 관리는 관심사이기때문에 재미있게 살폈습니다. 2010년 Hadoop기반의 마켓데이타서비스를 준비할 때의 상황입니다.
CME Group has data dating back to 1982 that is accessible to customers.? CME historical data is currently all stored in Oracle, looking to move to Hadoop. RDBMS is their bottleneck. Weekly volume at CME Group, 1000+ M transactions. Spike at 1.6B trades in a week. ? Datamine service to sell market data (anonymized) Challenges at CME
– High Throughput (100s M/day)
– Low
Latency (avg rt time ~2.5ms)
– No Data Loss (liability)Regulatory Constraints CME latency is 2ms.
CME는 ?Hadoop 전문업체인 Cloudera가 2010년 개최한 회의에서 아래와 같이 발표하였습니다.
2.
금융권에서 Hadoop을 적용한 사례가 더 없을까요? 자료를 검토해 보면 대략 2009년부터 Hadoop에 대한 관심과 기술도입이 이루어진 듯 합니다. 역시 Cloudera가 2009년 뉴욕에서 개최환 Hadoop World 2009를 통해 소개한 자료를 소개합니다.
먼저, Visa카드입니다. 5억개의 고객계좌로부터 1억개의 트랜잭션이 발생합니다. 트랜잭션당 200 byte의 데이타가 생성하므로 지난 2년간의 데이타인 730억 트랜잭션 데이타 을 만들어졌습니다. 지금까지 데이타를ㄴ석하는데 걸린 시간은 약 1개월정도였지만 지금은 13분으로 단축되었습니다.
JP Morgan의 사례를 간단히 살펴보도록 하겠습니다. 먼저 도입배경입니다. RDBMS의 한계를 말하고 있습니다.
JP Morgan가 바라보는 Hadoop의 위치.
이상은 아래에서 가져왔습니다.
Hadoopの最新動向を「Hadoop World:NY 2009」の資料から
3.
다시 원점으로 돌아가도록 하겠습니다. 자본시장에서 Hadoop을 사용하는 이유는 무엇일까요? 먼저 전자거래소가 등장한 2000년이후 트레이딩은 전자화(기계화) 및 알고리즘화로 변화하였습니다. 이 때문에 거래량은 폭증하였고 이는 전세계적으로 공통된 현상입니다. 흔히 Big Data라고 이야기하는 시대가 자본시장에도 도래하였습니다. KT 경제경영연구소가 번역한 아래 자료는 Big Data의 의미를 잘 정리하고 있습니다.
그러면 Big Data와 자본시장과 무슨 관계가 있을까요? 열쇠는 알고리즘트레이딩입니다. 세계최초로 거래소가 클라우드방식으로 과거데이타 서비스(OnDemand Service)를 개시한 Nasdaq은 다음과 같이 이유를 설명합니다.
The ability to get customized data sets automatically is more than just a convenience. It’s a competitive advantage for high frequency trading firms, quant shops, algorithmic traders or anyone who needs to back test trading strategies.
그러면 한국은? 한국도 예외는 아닙니다. 그동안 전일종가 기준으로 구성된 알고리즘을 틱기준으로 변화하고 있습니다. 그렇지만 마땅히 시험가능한 과거 틱데이타 서비스가 없습니다. 물론 증권사 자체로 저장한 틱데이타가 있지만 이 또한 필터링을 한 호가정보라 시장상황을 정확히 재연하기 힘듭니다.
현재 거래원데이타를 가지고 있는 곳은 KRX입니다. KRX는 비상업용에 한하여 거래 원데이타=TAQ데이타를 판매합니다. 트레이더가 사용할 수 없습니다. 알고리즘트레이딩을 활성화하려면 KRX가 관련데이타를 상업용으로 판매하여야 합니다. 그리고 전일단위로 이루어져야 하지 않을까 합니다. 예를 들면 NYSE는 Daily TAQ처럼 서비스를 하고 있습니다.
Big Data가 단순히 거래소와 관련된 기술적 이슈는 아닙니다. 증권사도 마찬가지입니다. CRM이 아직도 유효한 개념인지 몰라도 앞서 Visa처럼 지난 몇 년동안 고객들의 매매데이타를 놓고 분석한다면 Hadoop이 적절한 대안입니다.
그럼 Hadoop이란? 너무 깁니다. 저도 아직 학습하는 단계입니다.다만 아래 자료는 총론으로 좋지 않을까 합니다.
Big Data와 Hadoop은 남의 일이 아닙니다.