오픈소스에서 오픈데이타로

1.
컴퓨터라는 물건이 무엇에 쓰는 물건인지 안지도 이십여년이 넘었습니다. 소비자의 눈이든, 직업으로의 눈이든 컴퓨터는 시대에 따라 강조하는 부분이 달랐습니다. 개인 컴퓨터가 나왔을 때부터 오랫동안 하드웨어가 중요했습니다. 어느 때부터 하드웨어 보다는 소프트웨어가 더 중요한 시대가 있었습니다. 그러다가 스마트혁명이 세상을 바꾸면서 데이타가 중요해지기 시작하였습니다. IOT(Internet Of Thing)=사물인터넷시대가 열리면 데이타는 점점 더 중요해질 듯 합니다. 이제 데이타가 권력인 시대입니다. 이런 흐름을 반영한 글이 얼마전에 올렸던 Computer Science Theory for the Information Age입니다.

이와 같은 시대적 흐름을 반영한 결과일까요? 어플리케이션을 공유하자고 하는 오픈소스에 이어서 오픈데이타가 늘어나고 있습니다. 오픈데이타의 원조를 따지면 도서관입니다. 공공도서관이 현실세계에서 저작권이라는 장벽을 넘어서 지식과 정보를 보다 넓게 공유하도록 하는 역할을 하였습니다. 이것을 이어 받은 프로젝트가 ‘구텐베르그 프로젝트’입니다. 구글이 야심차게 추진하고 있는 Google Books Library Project도 같은 취지입니다. 오픈데이타와 연결지을 수 있는 또다른 흐름은 공공영역의 투명성을 높이기 위하여 추진하는 공공 정보의 공개입니다. 세계은행은 Open Government Data을 통하여 데이타를 공개하고 있습니다. 세계은행은 오픈데이타를 다음과 같이 정의합니다.

“open data” is defined as data that can be freely used, reused, and redistributed by anyone.
“Open financial data” refers to open data that is related to the financing and delivery of public goods, works, and services, including procurement and contracting.

금융감독원이 Open API를 통해 정보를 공개하는 것도 오픈데이타라고 할 수 있습니다. 그러면 오픈 데이타는 이와 같은 오픈 도서관과 무엇이 다를까요? 차이점은 디지탈로 저장하여 공개하는 데이타의 성격입니다. 소위 숫자로 이루어진 데이타가 주된 대상입니다.

트레이딩영역에서 가장 중요한 데이타는 시계열데이타입니다. 그동안 자본시장의 시계열데이타를 얻는 방법은 많지 않습니다. 해외의 경우 구글이나 야후가 제공하는 일별 데이타를 API를 통해 얻는 방법이 일반적입니다. 국내의 경우도 증권사가 제공하는 API를 이용하여 얻을 수 있습니다. 제공하는 데이타의 크기가 제한적입니다. 최근 데이타분석을 위한 공개언어들이 힘을 얻고 있습니다. Python이나 R과 같은 언어들입니다. 데이타만 얻을 수 있으면 공개언어와 공개라이브러리를 이용하여 다양한 분석을 할 수 있습니다. 오픈데이타의 필요성이 더 커졌습니다. 오픈데이타 프로젝트중 가장 대표적인 것이 Quandl입니다. Quandl의 출발은 Open Financial Data Project입니다.

2.
Quandl의 목적은 아래와 같습니다.

The internet offers a rich collection of high quality numerical data on thousands of subjects. But the potential of this data is not being reached at all because the data is very difficult to actually find. Furthermore, it is difficult to extract, validate, format, merge, and share.

현재 Quandl이 제공하는 데이타를 보면 방대합니다. 팔백만 데이타셋(dataset)을 확보하고 있고 현재도 계속 늘어나고 있습니다. 데이타를 이용하고자 하면 직접 다운로드를 하거나 API를 이용하는 방법이 가능합니다.

Commodities Spot and futures prices for 70+ commodities and 10+ commodity indexes from around the world.
Futures 60+ contracts from 10+ exchanges, with prices, commitments, historical and continuous contract data.
Currencies Exchange rates versus the US Dollar for 200+ currencies.
Bitcoin Exchange rates, number in circulation, market capitalization and transaction statistics for Bitcoin.
Cross Rates FX cross rates for 10 major currencies.
US Stocks Index of 15,000+ North American stocks.
US Sectors 60+ sectoral indexes for the United States.
US Rates 90+ key interest rates for the United States.
China Markets Stocks, bonds, money supply, interest and exchange rates for China.
World Markets 25 global stock indexes, 20 commodities, 20 interest rates, and 20 foreign exchange rates.
World Stocks 85+ global stock market indexes representing 60+ stock exchanges, from Amman to Zagreb.
More Index of all Markets topic pages on Quandl.

 

Format Suffix Example
CSV .csv www.quandl.com/api/v1/datasets/PRAGUESE/PX.csv
HTML .plain www.quandl.com/api/v1/datasets/PRAGUESE/PX.plain
JSON .json www.quandl.com/api/v1/datasets/PRAGUESE/PX.json
XML .xml www.quandl.com/api/v1/datasets/PRAGUESE/PX.xml

예를 들어 KOSPI지수의 경우 1990년부터 2014년 1월까지 일별 데이타를 제공합니다.

KOSPI Composite Index (South Korea)

이와 비슷하지만 조금 다른 프로젝트도 있습니다. Academic Torrents입니다. Academic과 관련한 사람들이 Torrent를 이용하여 데이타를 교환하는 프로젝트라고 생각하면 됩니다.

Researchers from the University of Massachusetts have launched a torrent site which allows academics to share papers and datasets. AcademicTorrents provides researchers with a reliable and decentralized platform to share their work with peers, as well as the rest of the world. The site currently indexes over 1.5 petabytes of data, including NASA’s map of Mars.

Open Economics Working Group은 연구자들이 연구를 할 때 사용한 데이타를 완전히 공개하여 공유하자는 취지로 만든 그룹입니다. 오픈데이타프로젝트가 아주 다양합니다.

3.
알고리즘트레이딩을 하는 국내 트레이더 혹은 헤지펀드들이 사적으로 보관하고 있는 틱데이타가 있습니다. 대부분 몇 테라가 넘는 하드디스크에 저장해놓습니다. 그렇다고 실제로 데이타를 이용하는 경우는 많지 않습니다. 이를 재활용하는 방안이 없을까요? 여기서 한가지 상상을 해봅니다. OpenKRX라는 오픈데이타프로젝트를 합니다. 각 트레이더들이 가지고 있는 데이타를 받아서 정제한 후 Quandl과 같은 방식으로 공개합니다. 기술적으로 어려울 것도 없고 비용도 거의 들지 않습니다. 멋있지 않을까요?

아쉽게도 상상은 여기까지입니다. 저작권입니다. 한국거래소와 코스콤이 문제를 삼겠죠. 그렇지만 piratebay와 같은 곳의 도움을 받으면 가능할 수도 있겠죠?(^^)

Leave a Comment

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다

이 사이트는 스팸을 줄이는 아키스밋을 사용합니다. 댓글이 어떻게 처리되는지 알아보십시오.