알고리즘트레이딩을 위한 데이터사이언스 과정

WHY Data Science

2008년 미국 와이어드지에 실린 The End of Theory: The Data Deluge Makes the Scientific Method Obsolete은 빅데이터시대를 연 칼럼이라고 합니다. 이 칼럼의 마지막은 이렇습니다.

Correlation supersedes causation, and science can advance even without coherent models, unified theories, or really any mechanistic explanation at all.

세상을 이해하고 예측하는데 빅데이터를 분석하여 도출한 ‘상관관계(correlation)’가 전통적인 이론과 모델을 통한 ‘인과관계(causality)’보다 정확하고 유효하다는 내용입니다. 이런 결론은 자본시장에도 적용할 수 있습니다. 자본시장에서 정량적인 데이터분석을 주도한 사람은 퀀트입니다. 그렇지만 ‘금융공학’보다는 ‘데이터’를 더 강조하는 빅데이터의 시대 데이터 과학자(사이언티스트)를 새로운 퀀트(New Quant)로써 자리매김하고 있습니다.

데이터 사이언티스트를 되기 위해서 크게 세가지 지식이 필요하다고 합니다.

2015-06-21-venn

좋든 싫든 데이터는 전자적으로(electronically) 거래되는 재화(commodity)이다. 따라서 이 시장에 참여하기 위해서는 프로그래밍을 좀 해야한다. 그렇다고 컴퓨터 공학을 전공해야 한다는 것은 아니다. 실제로 내가 아는 뛰어난 해커 몇명은 컴공 수업을 단 한 개도 들어본 적이 없다. 성공적인 데이터 해커가 된다는 것은 텍스트 파일을 명령줄(command line)에서 조작할 줄 알고, 벡터 연산을 이해하고, 알고리즘적으로 사고하는 등의 것을 말한다.

일단 데이터를 수집하고 정제했다면 다음 단계는 데이터에서 인사이트(insight)를 이끌어내는 것이다. 이를 위해서는 적절한 수학 및 통계학적 방법론을 적용하고, 그에 대한 최소한의 이해는 할 수 있어야 한다. 경쟁력 있는 데이터 사이언티스트가 되기 위해서 반드시 통계학 박사학위가 있어야 한다는 말은 아니지만, 적어도 최소자승법 회귀분석(ordinary least squares regression)이 무엇이고, 그것을 어떻게 해석해야하는지는 알아야 한다.

마지막 조각인 도메인 전문성은 이 주제에 대한 다른 사람들의 주장과 가장 큰 차이를 보이는 부분이다. 나는 데이터와 수학/통계의 결합은 기계학습(machine learning)밖에 되지 못한다고 생각한다. 당신의 관심 분야가 그것이라면 다행이지만, 데이터 사이언스라면 그렇지 않다. 사이언스, 즉 과학이란 원래 세상에 대한 흥미로운 질문이나 가설을 던진 후 데이터를 수집해서 통계적 방법론으로 검증하여 지식을 발견하고 쌓아나가는 것이다. 도메인 전문성과 수학 및 통계적 지식의 교집합은 대부분의 전통적인 학문이 속하는 영역이다. 많은 박사급 연구자들은 이 구역에서 전문성을 쌓는데 자기 시간의 대부분을 할애하며, 기술(technology) 습득에는 시간을 많이 투자하지 않는다. 이러한 성향은 연구자들의 기술 이해 수준에 대한 보상을 하지 않는 학계의 특성 때문이기도 하다. 물론, 나는 그런 전통을 타계하고자하는 젊은 학자 또는 대학원생도 많이 만났다.
데이터 사이언스 벤 다이어그램중에서

이번에 휘안리서치 (FIAN Research)와 협력하여 마련한 ‘알고리즘트레이딩을 위한 데이터사이언스’과정은

‘수학 및 통계에 대한 전문성’
‘도메인전문성(자본시장, 트레이딩)

을 결합하여 관련한 능력을 키우는데 목적을 두고 있습니다. 교육을 준비하면서 기초통계나 데이터 관리 도구에 다소 익숙하지 않아도 배울 수 있고 직접 실습을 통해 습득한 지식을 확인할 수 있도록 교육을 준비하였습니다. 약 두 달의 과정을 거치면 데이터 사이언티스트로서 1차적인 직무를 수행하실 수 있게 될 것입니다.
[wptab name=’교육 소개’]

목적

알고리즘 트레이딩 구현을 위해서 필요한 데이터 사이언스로의 입문 과정이며 예문 실습을 통한 개념의 직관적인 이해를 우선시하는 교육과정입니다. 통계 프로그래밍 언어를 사용하지 않고 보편적인 툴인 엑셀과 금융공학 add-in 프로그램 PrimaXL을 주 교재로 사용합니다.

대상

R, Matlab, Python 등을 사용한 경험은 유용하지만 교육을 수강하는데 필수는 아닙니다. 엑셀을 사용해본 경험이 있으시면 충분합니다. 금융공학과 관련한 지식은 있으나 실습을 필요로 하시는 분, 데이터분석을 위한 수학 및 통계적인 지식과 실습을 원하시는 분, 데이터를 이용하여 알고리즘전략을 구축하고자 하는 분이면 누구나 가능합니다. 또한 ‘알고리즘트레이딩 전략개발과정’이나 ‘알고리즘트레이딩을 위한 금융수학 과정’을 수강하신 분들은 지난 교육에서 배운 바를 더 넓히는데 도움을 줍니다.

준비물

핵심적인 교재는 이번 교육과정의 협력사인 휘안리서치 (FIAN Research)가 제공하는 PrimaXL입니다. 수강생들은 반드시 개인 노트북 컴퓨터를 지참하여 교재용으로 제공하는 PrimaXL을 직접 설치하시고 실습에 참여하셔야 합니다. 교육장에 설치한 노트북 컴퓨터를 이용할 수 있으나 PrimaXL의 라이센스때문에 사용하시는 컴퓨터를 지참하시면 좋습니다. 별도의 강의노트는 제공합니다.

fian3

교육일정 및 시간

교육일정은 2015년 10월 2일부터 2015년 11월 10일까지이며 매주 화요일과 금요일에 진행합니다.
1회 교육시간은 3시간이며 늦은 7시부터 10시까지 입니다. 총 12회 36시간입니다.

교육비

12회 1,200,000원입니다. 부가세는 불포한한 가격입니다. 교재로 제공하는 PrimaXL의 비용을 포함한 가격이며 1회 인증용 라이센스를 제공합니다.(단 한대의 컴퓨터에서만 인증할 수 있습니다)
[/wptab]
[wptab name=’강사 소개’]

fian장순용(張淳鎔)

현) 휘안리서치(FIAN Research) 연구소장.
금융공학 모형 및 알고리즘 개발. 데이터 분석과 예측 모형 연구, 개발.

약력) 일리노이大(University of Illinois, Urbana-Champaign) 물리학 PhD. 워싱턴大, 오하이오 주립大 연구원 재직. 통계적 방법에 기반하는 전산 시뮬레이션 알고리즘 개발. 슈퍼컴퓨팅 알고리즘 개발. 초전도, 초유체 등 극저온 양자유체 현상 연구. 응집물리, 핵물리 연구.

저서) 알고리즘 트레이딩 시리즈 총3권. 국제 저널에 다수의 논문 게재

fian2
[/wptab]

[wptab name=’교육일정 및 내용’]
(*)1회당 교육시간은 동일하지 않습니다. 하루 교육시간에 몇 회의 교육을 진행할 수 있고 반대로 한 회의 교육을 몇 일씩 할 수도 있습니다.

순서주제내용
1회개요데이터 사이언스에 기반한 알고리즘 트레이딩 소개.
알고리즘 트레이딩에 대한 대중의 오해와 진실.
워밍업을 위한 브레인 티저.
교육과정 소개.
교재용 프로그램 PrimaXL 설치와 사용법 소개. (실습)
2회기초 교양꼭 알아두어야 할 확률과 통계 기초. (실습)
Kelly의 기준. (실습)
효용성 함수.
확률의 fat tail 분석과 Value At Risk (VAR). (실습)
다양한 목적의 포트폴리오 최적화. (실습)
3회데이터의 준비이상값 처리. 미싱 데이터 처리. (실습)
데이터 구하기: 일일 주식 데이터 내려받기. (실습)
API를 사용한 선물, 옵션 intraday 데이터 내려받기.
4회데이터의 시각화내삽. 트랜드 피팅. 디트렌딩. (실습)
히스토그램, 바플롯, QQ플롯. (실습)
정규확률분포와 Student-t 확률분포 비교.
5회시계열의 기초시계열이란 무엇인가요?
정상시계열 vs 비정상시계열. 약정상시계열 정의.
자기공분산함수, 자기상관계수. (실습)
정상시계열 모형 소개: AR모형, MA모형, ARMA모형.
시차 연산자와 시차 다항식.
특성근 구하기. 특성근의 해석. (실습)
시계열 모형의 파라미터 해석. (실습)
시계열 모형의 변환. (실습)
6회시계열의 시뮬레이션, 피팅, 예측.
시계열의 시뮬레이션. (실습)
MA모형의 결정 방법. (실습)
AR모형의 결정 방법. (실습)
최대우도방법을 적용한 ARMA모형의 파라미터 피팅. (실습)
비정상 시계열과 ARIMA모형의 파라미터 피팅. (실습)
AR, MA, ARMA 모형을 적용한 예측 방법과 특성. (실습)
몬테카르로 방법을 적용한 예측 밴드의 산출. (실습)
비정상 시계열의 예측방법. (실습)
7회변동성 모형, 옵션과 변동성 전략
변동성이란? 변동성 계산방법.
옵션가격 계산: 블랙-숄즈와 몬테카르로 방법. (실습)
옵션과 변동성: 역사적 변동성과 내재 변동성. (실습)
ARCH와 GARCH 변동성 모형의 필요성과 소개.
ARCH와 GARCH 모형을 적용한 변동성의 시뮬레이션. (실습)
변동성 모형 ARCH와 GARCH의 파라미터 피팅. (실습)
ARCH와 GARCH 모형을 적용한 변동성 예측. (실습)
옵션의 변동성 전략이란?
선물과 옵션의 관계. 차익거래 전략 소개.
8회시계열의 평활화와 내재적 가치 발견, 예측
이동 평균 계산과 시계열의 평활화. (실습)
Kalman 필터를 적용한 노이즈 필터링과 평활화. (실습)
Holt지수 평활화 파라미터 피팅. (실습)
Holt지수 평활화 방법 적용한 시계열 예측. (실습)
9회공적분과 페어트레이딩
페어트레이딩 전략 소개.
상관계수와 공적분.
단위근이란?
Dickey-Fuller 단위근 테스트. (실습)
Augmented Dickey-Fuller 단위근 테스트. (실습)
Engle-Granger 공적분 분석방법. (실습)
벡터 시계열 모형 (VAR) 소개 및 파라미터 피팅. (실습)
벡터 시계열 모형 (VAR)을 사용한 예측. (실습)
스프레드의 예측. (실습)
10회머신러닝의 고전, 회귀분석
선형회귀분석의 원리.
선형회귀와 분산분석(ANOVA). (실습)
선형회귀분석과 결과 해석. (실습)
선형회귀방법에 기초하는 학습-예측 모형. (실습)
Yes or No?? 로지스틱 회귀방법으로 분석. (실습)
로지스틱회귀방법에 기초하는 학습-예측 모형. (실습)
ROC 퍼포먼스 그래프와 해석. (실습)
11회머신러닝 심화Bayes 통계법과 머신러닝의 원리. (실습)
k-means 클러스터링 알고리즘. (실습)
Naïve Bayes 알고리즘을 적용한 인공지능 구현. (실습)
Ensamble 알고리즘: bagging과 boosting. (실습)
12회시장 미시구조 이론시장 미시구조 이론이 목표하는 것은?
Roll 모형: 호가와 매매비용. (실습)
순차적 트레이딩 모형. (실습)
내부 정보의 유입과 트레이딩. (실습)
전략적 매매자와 Kyle 모형. (실습)
13회저널 리뷰저널 article 리뷰 및 토론.

[/wptab]
[wptab name=’교육장 소개’]

강의실 소개

구분설명
좌석8명
네트워크무선랜 AP 설치

20150914_131553

위치

서울특별시 영등포구 여의대방로 171 카페24 창업센터 3층 Conference Room

[wptab name=’참가 신청’]

참가신청

    이름 (필수)

    이메일 (필수)

    제목(필수)

    하시는 일(필수)

    세금계산서 발행(필수)

    아니오

    세금계산서 발행을 '예'라고 하셨으면 사업자등록증을 첨부해주세요

    코드값을 입력하세요(Input this code): captcha

    강사 및 주최측에 하고 싶은 말


    [/wptab]
    [end_wptabset skin=”default” location=”top” ]

    17 Comments

    1. 김지홍

      안녕하세요. 지난번 글에 교육 관련 문의드렸는데… 공교롭게도 일정이 제 해외 출장과 겹쳐 이번에는 참석이 힘들것 같네요…. 혹시 이번 교육 이후에 추가적으로 진행하실 계획은 없으신지 궁금합니다.

      Reply
      1. smallake (Post author)

        안녕하세요.
        우선 1기 교육을 잘 시작하는 것이 중요해서 2기를 할지,말지를 결정하지 못했습니다. 가능하면 할 생각이지만 아직 1기 개강을 위한 최소인원을 넘어서지 못해서 강사님과 구체적인 계획을 이야기하지 못하고 있습니다.

        잘 되지않을까 생각합니다. 관심을 가져주셔서 감사드리고 건강하세요.

        Reply
        1. 김지홍

          감사합니다. 제가 도와드릴 수 있는건 없지만 꼭 잘되었으면 합니다. 항상 응원하겠습니다. 🙂

          Reply
          1. smallake (Post author)

            말씀만이라도 감사합니다. 건강하세요.

            Reply
    2. 김대리

      수학을 전혀 몰라도 참여가능한가요?

      Reply
      1. smallake (Post author)

        안녕하세요.

        “몰라도 가능합니다”라고 하면 거짓말일 듯 합니다. 아무리 개념을 잘 설명해도 수식이 나오면 머리가 아프고 복잡합니다. 말이 귀에 들어오지 않습니다. 개념을 이해하고 수식까지 이해하여 응용하는 것이 목표면 이렇습니다.

        만약 개념정도만을 이해하고 이를 PrimaXL로 실습하면서 이해를 넓히는 것으로 목표를 정하면 괜찮을 듯 합니다. 다만 이 목표를 위해 큰 돈을 투자할 필요가 있는지는 전적으로 당사자의 몫이네요.(^^)

        좋은 하루 되세요

        Reply
    3. 비공개

      실례되는 요청이지만 강사님이 실전거래에서 수익과 손실을 함께 경험했다면 10년간의 매매내역이 기록된 실계좌 손익내역 조회화면을 이곳이나 유튜브에 공개하신후에 링크를 걸어 주실수 있나요?

      Reply
      1. smallake (Post author)

        안녕하세요. 요청하신 부분이 실례는 아니라고 생각합니다. 알고리즘트레이딩을 위한 강의이므로 강사가 실매매 경험이 있는지, 있으면 어떤 결과를 보였는지를 알면 강의의 방향을 예상하실 수 있기때문입니다.

        결론적으로 매매를 하신 적이 있지만 드러내놓을 만큼 오랜 기간이 아닙니다. 그래서 공개할 매매내역이 없습니다.

        기획한 저에서 굳이 매매경험이 많지 않은 분을 강사로 섭외했냐는 질문을 하실 수 있습니다. 저는 매매내역이 화려하고 시장을 야전에서 경험한 트레이더가 줄 수 있는 강의와 그렇지 않고 이론 혹은 데이타로 접근해서 시장을 이해하는 분이 제공하는 강의가 다르다고 생각합니다. 만약 전자의 분을 강사로 섭외했으면 “테이터 사이언스를 이용한 알고리즘트레이딩’이라고 강의 제목을 달았을 듯 합니다. 이번 교육은 반대입니다. “알고리즘트레이딩을 위한 데이터 사이언스과정’입니다. 자본시장 데이타라는 큰 바다에 뛰어들어 헤엄질 수 있는 기본기를 가르치는 교육이 목적입니다.

        Reply
    4. 비공개

      강사님이 현재까지 알고리즘트레이딩 연구를 위해 직접 수집하신 데이터 목록, 파일형식, 용량 ( 예: KRX 장내거래 주식 채권 파생상품 전종목 호가틱 및 체결틱, 바이너리, 약 800TB 등 )과 함께 어떤 매체( 예: 클라우드 서버 )를 통해 수강생들에게 제공하실 예정인지 알려주셨으면 합니다.

      Reply
      1. smallake (Post author)

        안녕하세요. 지난 번 요청도 어렵다고 말씀드렸는데 오늘도 같은 답변을 드려야 하겠습니다. 우선 ‘알고리즘’과 ‘데이타사이언스’ 모두 데이터를 기초로 합니다. 그렇지만 각각 목적이 다르기 때문에 어떤 데이타를 어느 만큼 확보하여 분석하여야 하는지는 다를 듯 합니다. 강의의 목표는 알고리즘트레이딩을 하는 분들이 데이타를 잘 분석하기 위한 기술적, 학문적인 뒷받침을 주려는 것이 목표입니다. 대용량의 데이타를 가지고 현실에서 사용할 수 있는 알고리즘을 도출하는 것은 아닙니다. 이 때문에 인터넷으로 공개된 데이타를 이용하여 교육을 진행합니다. 구글이나 야후 혹은 오픈데이타 등으로 공개된 데이타입니다.

        또한 말씀하신 한국거래소의 데이타의 경우 저작권이 한국거래소에 있습니다. 한국거래소의 동의를 받지 않고 공식적으로 사용하는 것은 불법입니다. 개별적으로 트레이더들이 DMA서비스등을 통하여 획득한 데이타를 사적으로 사용하는 것도 합법은 아니지만 한국거래소가 인지하지 못하므로 어떤 법적 조치를 취할 뿐입니다.

        타 회사의 권리를 침해하기때문에 교육을 진행할 수 없다는 것이 저의 생각입니다.

        Reply
    5. 정문재

      하이투자증권의 정문재 부장이라고 합니다. 시스메틱(sysmetic.co.kr) 운용자이기도 하구요..
      혹 연락처를 알수 잇을까여? 연락부탁드리겠습니다 010-3784-2048입니다.

      Reply
      1. smallake (Post author)

        안녕하세요. 김형준입니다. 제가 메일을 드렸습니다. 연락처등이 포함되어 있습니다. 관심을 주셔서 감사드립니다.

        Reply
    6. 이민재

      이미 개강을 해서 수업이 진행중인데 주중반을 수강신청하고 앞에 못들은 부분은 새롭게 시작하는 주말강의로 보충이 가능할까요? 새로 시작하는 주말반을 신청하려고 했다가 주중반의 커리큘럼에서 다루는 부분이 더 많은 것 같아(저널 리뷰등) 해당형식으로 진행이 가능할 지 문의드립니다.

      Reply
      1. smallake (Post author)

        안녕하세요. 예전에 댓글을 단 부분으로 보면 관심분야가 따로 있으신 듯 합니다. 세가지를 말씀드릴 수 있습니다.

        첫째 논문리뷰의 경우 논문읽기만을 하는 과정을 따로 개설할 예정입니다. 시간이 필요합니다. 그래서 논문리뷰를 주말반에 일정시간을 할애하도록 강사님에게 요청해볼 수 있습니다.

        둘째 기계학습과 관련한 분야는 나중에 심화과정을 별로로 개설할 예정입니다.

        셋째 주중반은 현재 진행중이라 주말반을 기본으로 하고 강사님과 상의해서 주말반에 포함하지 않는 과정중 주말반에서 다루는 것이 강의한 것, 그렇지 않은 것을 확인하고 그렇지 않은 것만 주중반 수강을 하시면 어떨까요?

        사실 수강료 등을 산출하기 좀 쉽지 않거든요?(^^)

        Reply
        1. 이민재

          네, 담변 감사드립니다~

          Reply
    7. 달무드

      주말반이 있는지 향후 일정도 궁금합니다.

      Reply
      1. smallake (Post author)

        안녕하세요. 답변이 늦었습니다.

        현재 주간반은 이번주에 끝납니다. 그리고 10월 마지막일에 시작하려고 했던 주말반의 경우 성원이 차지 않아서 취소하였습니다.

        현재 두가지를 준비중입니다.

        첫째 주간반은 1기 결과를 놓고 프로그램을 조정할 계획입니다. 전체적인 틀은 유지하지만 기계학습은 키우는 방향입니다.

        둘째 주말반은 더 많은 고민을 하고 있습니다. 교육을 하려면 최소인원이 오셔야 하는데 이런저런 일정등으로 쉽지않습니다. 그래서 최소인원을 사전에 모집하여 참가자가 같이 할 수 있는 일정을 사후에 만들어 진행하는 방식을 고민하고 있습니다.

        관심을 주셔서 감사드립니다.

        Reply

    Leave a Comment

    이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다

    이 사이트는 스팸을 줄이는 아키스밋을 사용합니다. 댓글이 어떻게 처리되는지 알아보십시오.