Reddit Sentiment Index와 트레이딩

1.
한동안 트위터 트래픽을 이용하여 주가를 예측하는 감성지수(Sentiment Index)가 유행이었습니다.

감성지수과 트레이딩
트위터 감성지수를 이용한 예측지수 모형
트럼프시대의 매매기술, 트위터연동 알고리즘

지금 해외의 경우 SNS를 이용한 감성지수와 관련한 글보다는 SNS의 텍스트를 Altenrnative Data의 한 구성으로 활용하는 방향이 많습니다. 기계학습과 자연어 처리를 결합함 모형입니다. 그런데 개인투자자가 미국시장에서 큰 세력으로 등장하면서 새로운 네트워크가 주목을 받고 이 네트워크에 오르락 내리락 하는 텍스트를 이용한 감성지수가 유행인 듯 합니다. Reddit을 무엇이라고 정의할지 애매하지만 옛날 다음의 아고라일 수도 있고 다양한 사이트의 게시판의 모음일 수도 있습니다. 다양한 주제가 워낙 방대합니다만 대중적으로 열려진 계기는 Wallstreetbets때문입니다.

밀레니얼세대의 투자와 r/wallstreetbets

Sentiment Index에 대한 관심이 다시금 높아지는 것은 몇가지 뉴스를 통해 확인할 수 있습니다. 먼저 작년 뉴스입니다. Reddit Becomes Must-Read for Wall Street Stock-Investing Crowd입니다.

Benn Eifert, chief investment officer of hedge fund QVR Advisors, points to the r/wallstreetbets thread on Reddit, which boasts 1.5 million users — “degenerates,” using the site’s own nomenclature.

“There are influencers within that community that will say, ‘Alright, today we’re buying the Tesla $2500 calls for next Friday,’ and the volumes that will print are huge,” Eifert said in an interview on Bloomberg’s Odd Lots podcast. “And you better believe that the most sophisticated options players in the world — the Susquehannas and Citadel Securities — are extremely focused on this flow and predicting it in real-time.”

There are plenty of examples of websites and platforms that attempt to scan r/wallstreetbets to create alert systems. A page on Medium.com — an online publishing platform — is dedicated to “Momentum Trading off Sentiment from r/wallstreetbets.” A blog post on a website called algotrading101.com reads “Web Scraping Tutorial – Reddit Data for Finance.”

또다른 뉴스는 Gamestop으로 커다란 수익을 올린 Dave Portnoy가 Sentiment Index를 활용한 ETF( VanEck Vectors Social Sentiment ETF)를 만들었다는 소식입니다.

Day-trading Reddit-readers nearly crashed the stock market. Now they’re in an ETF.

BUZZ는 AI기술을 기반으로 한 자체적인 Sentiment Index인 BUZZ NextGen AI US Sentiment Leaders Index를 기반으로 투자를 한다고 합니다. 비슷한 뉴스로 Quant trader turns to reddit for sentiment forecaster라는 이야기도 있습니다.

Download (PDF, 274KB)

2.
그러면 Reddit의 뉴스나 댓글을 이용한 Reddit Sentiment 시스템을 만들려면 어떻게 시작할까요? 가장 먼저 Reddit에서 데이타를 가져와야 합니다. 한국처럼 API를 지원하지 않으면 Screen Scrapping 기술을 도입하여야 하지만 트위터처럼 API를 제공하면 API를 이용합니다. Reddit도 API를 제공합니다.

Web Scraping Tutorial – Reddit Data for Finance

Sentiment Analysis for Trading with Reddit Text DataPushshift의 API와 VADER Model를 이용하여 분석모형을 만들고 있습니다. Pushshift는 API를 Reddit의 데이타를 수집할 수 있습니다.

이렇게 수집한 데이타는 VADER (Valence Aware Dictionary for sEntiment Reasoning) sentiment analyzer 를 이용하여 분석합니다. 아래는 모형입니다.

Download (PDF, 810KB)

그리고 VADER-Sentiment-Analysis에서 가져온 Python 코드 전체입니다.

이와 달리 Predicting sentiment of comments to news on Reddit은 Naive Bayes classifier을 이용하여 분석한 결과를 정리한 논문입니다. Naive Bayes Classifier From Scratch in Python을 보면 코드수준에서 방법을 정리하고 있습니다.

Download (PDF, 1.68MB)

사실 구글로 검색해보면 Reddit을 이용한 다양한 분석프로젝트들이 있습니다. 국내의 경우 곳곳의 카페나 게시판을 대상으로 위와 같은 분석시스템을 만들 수 있지만 가장 큰 문제는 데이타 수집으로 보입니다. API를 통하여 데이타를 수집할 수 있는 곳이 소수입니다. 웹 스크린 스캘핑으로 수집하려면 비용이 높습니다. 그럼에도 장벽이 있으므로 구축해볼만 하지 않을까 합니다. 참고로 Reddit’s Self-Organised Bull Runs이라는 논문이 있습니다.

This paper finds that users who comment on one discussion involving a particular asset are approximately four times more likely to start a new discussion about this asset in the future, with the probability increasing with each additional discussion the user engages in. This is a strong indication that investment strategies are reproduced through social interaction. This is further validated by findings that sentiments expressed in the linked submissions are strongly correlated in a set of spatial regression models. In particular, bearish sentiments seem to spread more than their bullish counterparts.

Download (PDF, 4.96MB)

Leave a Comment

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다

이 사이트는 스팸을 줄이는 아키스밋을 사용합니다. 댓글이 어떻게 처리되는지 알아보십시오.