
사회적 감성이 가상화폐 가격에 미치는 영향분석 : 실물화폐와의 비교를 중심으로
© 2021 KIIE
Abstract
This paper analyzes the volatility of the ever-changing currency price and sentiment score from data in tweets and news on the Internet, and puts forward the logical basis for the relationship between them through quantitative figures. Assume that cryptocurrency is more affected by social sensibilities such as tweets and that commodity money is more affected by traditional mass media such as news. Text data such as tweet data and news related currency articles were collected to calculate sentiment scores. Correlation analysis was then performed to analyze the relationship between the price of each currency and the scores. As a result, bitcoin prices had patterns of variation similar to those of relatively social media, and gold prices had patterns of variation similar to those of relatively traditional mass media. Considering the focus of existing studies on cryptocurrency, this study can extend its scope to commodity money, thereby extending the scope of future research areas and contributing to its value.
Keywords:
Cryptocurrency, Sentiment Analysis, Social Sentiment, Text mining1. 서 론
Lee et al.(2019)과 Matta et al.(2015)은 소셜 감성이 실제 비트코인 가격에 영향이 있음을 증명한다. 그러나 비슷한 연구들 대부분 가상화폐 자체의 변동만을 연구 대상으로 함으로 전반적인 경제 요소에 대비하여 가격화폐의 특성을 명확히 검증하지 못한 측면이 있다. 이에 본 논문에서는 뉴스와 트위터로부터 산출한 소셜감성을 통해 실물화폐와 가상화폐의 비교를 하여 가상화폐가 실물화폐 대비 소셜감성에 상대적으로 더 큰 영향을 받음을 정량적으로 입증하려 한다. 또한, 본 논문에서는 대체 투자수단으로써의 금과 비트코인의 특성을 설명하기 위하여 세계 경제 지표와의 관계도 분석한다.
1.1 가상화폐
가상화폐는 블록체인(blockchain)이란 분산 컴퓨팅 기술을 이용하여 만든 화폐로서(Narayanan et al., 2017), 화폐의 거래내용은 체인 형태의 연결된 노드들에 분산 저장되고 누군가 임의로 수정하거나 조작할 수 없으며 암호화폐(cryptocurrency)라는 이름으로 부르기도 한다. 가상화폐는 중앙은행이 통제할 수 없는 decentralized system을 가져 개인의 wallet 간의 자유로운 입출금이 가능하며, 채굴이라는 형식으로 화폐발행이 이루어지고(Pavel, 2016), 2020년 1월 29일 기준 하루에 약 144조 원의 대규모 거래가 이루어지고 있다.
가상화폐는 거래소의 해킹공격 위험성과 피싱사이트, 가상화폐펀드 등의 사기 범죄, 그리고 거래내역을 추적하기 쉽지 않다는 점을 이용한 블랙머니 거래 등의 문제점을 안고 있다. 그러나 금과 함께 달러의 대체 수단으로 여겨지며, 페이스북의 ‘리브라코인’ 발행, 미국 최대 규모의 증권거래소인 인터콘티넨탈익스체인지의 비트코인 선물거래소 개시, JP모건의 ‘JPM코인’ 발행 등(Boorstin, 2019), 거대기업들의 움직임으로 가상화폐 시장이 앞으로 더욱 가치가 있을 것이라는 전망이 나타나고 있다. 세계 각국과 G20에서도 가상화폐 규제 대한 끊임없는 논의가 이루어지고 있는 만큼 가상화폐 가격 변동 요인에 관한 연구가 더 필요한 실정이다.
가상화폐와 다른 투자상품들은 세계 경제 이슈에 영향을 받는 것이 일반적이다. 하지만, 투자자들의 심리상태 또한 투자상품에 영향을 미칠 수 있다는 여러 연구가 입증되어왔다. Dolan(2002)은 정보뿐만 아니라 감성 또한 인간의 의사결정에 큰 부분을 차지한다는 것을 설명하며, 행동경제학은 감성이 경제적 의사결정을 하는데 상당한 역할을 맡는다는 것을 증명해 왔다(Nofsinger, 2010). 그리고 실제로 트위터와 같이 사람의 심리상태를 적극적으로 반영하는 매체는 주식시장을 예측 할 수 있는 지표가 될 수 있는데(Bollen et al., 2011), 이 가정은 사람의 심리가 가상화폐 가격 변동에도 이바지할 수 있음을 드러낸다. 가상화폐는 주식 시장과 비교하여 더 낮은 수수료, 24시간 매매 시스템, 더 완화된 규제 등의 낮은 진입장벽으로 비전문가들이 더 쉽게 거래할 수 있다. 비전문가들은 전문가들보다 정보력이 부족하기에 ‘mouth to mouth’와 같은 감성과 분위기를 기반으로 의사결정을 하는 경향이 있다.
1.2 대표화폐 선정
본 논문에서 선정한 대표화폐는 가상화폐의 경우에는 비트코인이며 실물화폐의 경우에는 금이다. 비트코인을 중심으로 이더리움, 리플, 알트코인 등의 다른 화폐도 존재하나 최근 2019년 한 해 동안 애플리케이션과 융합한 새로운 알트코인들이 많이 등장함과 동시에 사라지는 추세임에도 비트코인은 상대적으로 시장점유율이 안정적이다. 그리고 각종 미디어에서도 가상화폐, 암호화폐라는 어휘를 비트코인으로 대신 사용하는 경우도 흔하게 볼 수 있기에 비트코인을 가상화폐의 대표화폐로 선정하였다.
실물화폐의 대표화폐를 금으로 선정한 이유는 1) ‘실물’이라는 단어에 최대한 부합하는 자산, 2) 세계 경제의 거대한 흐름 속에서 가상화폐와 비슷한 포지션과 방향성을 갖는 자산, 3) 가상화폐와 같은 조건에서 데이터를 수집할 수 있는 자산, 4) 가상화폐와 같은 관점에서 세계 어디에서나 거래가 가능한 자산이기 때문이다. 위 조건들을 고려했을 때 금은 대표적인 실물자산이며, 가상화폐는 대체 투자자산의 특징을 가진 만큼 US Dollar와 대체로 음의 상관관계를 갖는데 금 역시 이러한 특징과 비슷하다. 또한, 금에 대한 키워드가 다양하지 않고 유일하기에 데이터 수집이 간단하며 세계적으로 통용되는 자산이므로 본 논문에서는 금을 가상화폐와 비교하기에 적합하다고 판단하여 대표 실물자산으로 선정하였다.
2. 선행연구
2.1 소셜 감성을 활용한 비트코인 가격 예측에 관한 연구
Lamon et al.(2017)은 뉴스 헤드라인과 트위터 데이터를 활용하여 가상화폐의 가격을 예측하는 연구를 진행하였다. 뉴스 헤드라인과 트위터 데이터는 당일 기준 향후 이틀간의 등락에 대해 바이너리 값(0, 1)으로 라벨링 하였고, 실험 결과가 가장 우수한 로지스틱 회귀 알고리즘으로 분류하여 제안한 모델을 통해서 가격의 상승과 하락을 예측할 수 있었다. 지적한 한계점으로는 모델 성능에 영향을 미칠 만한 다른 추가적인 변수가 필요하다는 것이었다. 향후 뉴스 기사의 헤드라인뿐만 아니라 내용을 함께 고려한다면 더욱 견고한 모델로 발전시킬 수 있으리라 전망했다.
또한, Stenqvist et al.(2017)은 트위터 데이터를 활용하여 비트코인 가격을 예측하는 연구를 수행하였다. 감성점수를 활용한 예측모델은 정확도 79%를 가지며, 임계치(threshold)에 따라 변하는 제한적인 상황 속에서 감성점수의 변동과 비트코인 시세의 변동 간에는 부분적으로 양의 상관관계를 가진다는 결론을 얻는다.
2.2 소셜 감성과 비트코인 가격의 연관성에 관한 연구
Lee et al.(2019)은 소셜 감성이 암호화폐에 미치는 영향에 관한 연구를 진행하였다. 제시한 가설은 다음과 같다. “트위터에서의 소셜 감성은 비트코인 가격에 영향을 미칠 것이다.”, “트위터에서 소셜 감성과 비트코인 가격 사이에 인과관계가 존재할 것이다.” 가설 검정을 위해 단위근 검정, 회귀분석, granger causality test를 사용하였고, 분석을 위해 소셜 미디어 트위터 데이터를 수집하고 명사를 추출하여 감성 사전의 긍정어, 부정어, 중립어에 맞추어 감성점수를 측정하였다. 분석결과를 토대로 제시한 가설을 만족시켰으며 긍정어, 부정어, 중립어의 수 모두 비트코인 가격 변동에 영향을 미치는 요인임을 확인했다. 이는 소셜 미디어 데이터의 감성을 활용하여 사회적 현상에 대한 설명의 폭을 확장하는 데 이바지한다. 하지만 소셜 감성을 트위터에서만 추출했다는 점과 다양한 암호화폐를 고려하지 못했다는 한계점을 드러내고 있다.
Mai et al.(2018)는 소셜 미디어 정보가 비트코인 가치평가에 미치는 경제적 영향을 체계적으로 탐색하고 소셜 미디어와 비트코인의 통화가치 간의 역동적인 관계를 정량화하고자 하였다. 각 문서에 포함된 감성 단어의 수를 활용해 감성점수를 매긴 후 소셜 미디어 변수들과 비트코인 가치 간의 관계를 실증적으로 검증하기 위해 vector error correction model(VECM)을 사용하였고, 실험 결과를 토대로 소셜 미디어 감성이 향후 비트코인 가격 변동의 중요한 선행 지표로 작용할 수 있음을 암시하였고 소셜 미디어 감성이 비트코인의 평가를 결정하는 중요한 예측 인자임을 확인함으로, 가상화폐 시장과 소셜 미디어의 경제적 영향력에 대한 새로운 가능성을 제시하였다(Luo et al., 2014). 하지만 소수의 사용자가 콘텐츠 대부분을 생성하기 때문에 다수 사용자의 영향력이 낮게 작용한다는 점에 한계점을 둔다.
Nofsinger(2010)가 제시한 가설은 다음과 같다. “소셜 감성이 투자자들의 결정에 영향을 미친다.”, “주식 거래의 효율적이고 감정적인 특성 때문에 주식시장 자체는 사회적 분위기의 직접적인 척도이다.”, “기업활동의 성격보다, 사회적 분위기, 주식시장 동향이 향후 금융 및 경제를 예측하는 데 도움이 된다.”이다. 사회적 분위기의 낙관적인 상승 흐름은 주식시장 가치 상승으로 측정이 되고, 주식시장 가치의 하락은 또한 사회적 분위기의 하락을 가리킨다. 또한, 사회적 분위기는 시간이 지남에 따라 변하는데 이에 주식시장 역시 급변하는 변동의 추세를 반영한다. 사회적 분위기는 경제 흐름의 변동 추세와 어깨를 나란히 한다는 가설을 입증하였다.
Matta et al.(2015)는 트위터, 구글 트렌드 데이터를 사용하여 비트코인 가격변동과의 관계를 연구하였다. 구글 트렌드와 비트코인 시세 간의 양의 상관성, 트위터 데이터의 양과 비트코인 시세 간의 양의 상관성을 확인하였다. 추후 트위터 데이터의 수집 범위를 넓히고, 리트위터나 즐겨찾기 등 다른 특징 사용을 제안한다.
3. 연구방법
3.1 연구 프레임 워크
이번 절에서는 본 논문에서 실시한 실험 일련 의 과정을 아래의 <Figure 1>을 통해 소개한다. 수집한 데이터 중 비정형 데이터에 속하는 트위터 데이터와 뉴스기사의 경우에는 파이썬 API ‘twitterscraper’를 활용하여 크롤링을 진행하였다. 이후 텍스트 데이터에 대한 전처리 작업을 진행하였다. 텍스트 전처리 작업은 1) 소문자 전환, 2) 특수기호(“!”, “@”, “#”, “$” 등)와 불용어(“a”, “and” 등) 제거, 3) 어근화 4) 중복 제거 순으로 진행하였다.
감성점수를 산출하기 위하여 본 논문에서 사용한 감성점수 사전/분류기는 VADER, TextBlob, LoughranMcDonald(Master Dictionary), NTUSD-Finance를 사용하였다. 감성분석을 통해 트위터와 뉴스로부터 감성점수를 산출한 후에 금, 비트코인 가격과 비교함으로써 가설 1, 2를 검증한다. 가설을 검증하기 위해 사용할 지표로서 상관계수(PCC, pearson correlation coefficient)를 사용하며 이에 관한 내용은 3.4절에서 자세히 설명한다.
본 논문에서 화폐와의 비교를 위해 선정한 세계 경제지표는 DXY(달러 인덱스)와 DJI(다우존슨지수)이다. 금과 비트코인은 대체투자재로써의 특성상 대체로 경제 상황과 상반되는데 위 경제지표들과 음의 상관관계를 보일 것으로 예상한다. 가상화폐는 365일 24시간 동안 쉬지 않고 트레이딩이 가능하며 별도의 안전장치가 없는 시스템을 갖는다. 그리하여 장기적인 관점보다 단기적 관점에서 가상화폐를 투자하는 경향이 강하게 나타난다. 이는 본 연구에서 장기간 분석보다 단기간 분석이 더 유의미할 것을 암시한다. 또한, 가상화폐가 엄청난 인기를 끌었던 시기가 있었던 것으로 보아 시기별로 상관관계의 차이가 있을 것으로 예상한다. 두 가정을 바탕으로 전체 데이터를 세 구간으로 나누고 구간별로 1개월, 3개월 5개월 단위로 분석하여 결과를 확인한다.
본 연구의 목적은 가상화폐가 실물화폐보다 상대적으로 소셜 감성이 지닌 viral적 성격에 더 영향을 많이 받는다는 것을 검증하는 것이다. 이를 검증하기 위한 가설은 다음과 같다.
- 가설 1. H0 : 트위터와 가상화폐, 실물화폐 각각의 상관계수는 차이가 없다.
- H1 : 트위터와 가상화폐의 상관계수가 실물화폐의 상관계수보다 크다.
- 가설 2. H0 : 뉴스와 가상화폐, 실물화폐 각각의 상관계수는 차이가 없다.
- H1 : 뉴스와 실물화폐의 상관계수가 가상화폐의 상관계수보다 크다.
3.2 데이터
이 장에서는 실험을 위한 데이터 수집 방법 및 기간 그리고 데이터의 특징에 관해 설명한다. 수집한 데이터는 뉴스 기사, 트위터 데이터, DXY, DJI, 금 가격, 비트코인 가격이 있다.
본 연구는 실험을 위해서 데이터의 수집 기간을 세 구간(section)으로 나누어 설정하였다. 구간을 나눈 근거로는 금과 달리 비트코인 가격형성 요인의 경우 일반투자자산의 성격과 투기성 투자자산의 성격을 모두 가지고 있기 때문에(Kristoufek, 2015) 그 특징을 뚜렷하게 대표하는 구간을 나누어 분석하게 되면 더욱 세부적인 기간별 분석이 가능하기 때문이다. 본 논문에서는 이러한 구간을 나누기 위한 기준점을 산업수명주기가 가진 성격에 맞추어 구분하였다. 세 구간은 각각 태동기(2016년 5~9월), 성장기(2017년 9월~2018년 1월), 성숙기(2019년 7~11월)로 나누어지며 이 구간에 맞추어 데이터를 수집하였다(<Figure 2> 참조). 태동기는 거래량이 적고 가상화폐가 소비자들로부터 대중적인 관심을 받기 전의 구간이고, 성장기는 가상화폐의 폭등하는 시기로서 가상화폐규제에 대한 논의, 블록체인 기술의 발전, 거대 금융 회사들의 포트폴리오 구성 등으로 가상화폐가 폭발적으로 성장하는 구간이자 가격 또한 이에 맞물려 대폭 상승하는 구간이다. 마지막으로 성숙기는 가상화폐가 성장기에 생겨난 가격 거품이 누그러짐에 따라 다소 안정적인 가격변동 폭을 보이는 구간이다.
연구 프레임워크에 따라 텍스트 데이터는 크게 소셜 감성을 대표하는 트위터 데이터와 공신력을 가지는 뉴스 데이터로 나뉜다. 트위터 데이터를 대량으로 수집하기 위해 파이썬 API ‘twitterscraper’를 사용하였으며, 비트코인과 금에 관련된 키워드를 활용하여 트위터 데이터를 수집하였다(Taspinar, 2016). 수집기간 내에 비트코인 키워드에 해당하는 트위터는 총 1,629,756개이며, 금 키워드에 해당하는 트위터는 총 38,250개이다. 객관성을 확보하기 위해 영어로 된 트위터 데이터만을 수집하였다(<Table 1> 참조).
가상화폐는 뉴스사(‘Cointelegraph’, ‘Coindesk’, ‘Bitcoin News’, ‘Forbes’, ‘Bitcoinist’)에서 ‘bitcoin’으로 검색된 모든 뉴스의 본문 내용을 수집하였다. 실물화폐는 뉴스사(‘Kitco News’, ‘Economic Times’, ‘DailyFX’, ‘FX Empire’, ‘Yahoo Finance’, ‘Livemint’, ‘FXStreet’, ‘BullionVault’, ‘CNBC’, ‘GoldPrice.org’)에서 ‘gold price’로 검색된 모든 뉴스의 본문 내용을 수집하였다. 또한, 뉴스 기사는 트위터와 마찬가지로 영어로 이루어진 데이터이며 비트코인 관련 뉴스는 총 1,750개, 금 관련 뉴스는 총 1,405개를 수집하였다(<Table 2> 참조).
가상화폐에 영향을 미치는 요소에는 VIX(뉴욕주식시장 변동지수), WTI(서부 텍사스 유가) 등의 여러 요소가 존재한다(Das, 2018). 본 논문에서는 그 중 DXY와 DJI를 대표적인 세계지표로서 사용하였다. DXY는 https://tradingview.com에서 수집 기간 동안의 일일 가격데이터를 수집하였으며, DJI 또한 같은 사이트에서 같은 수집 기간 내의 일일 가격데이터를 수집하였다.
가격 데이터는 하루를 기준으로 수집하여 총 465일의 가격 데이터를 수집하였다. 가상화폐인 비트코인 가격 데이터는 https://coinmarketcap.com에서 수집하였다. 비트코인 같은 경우 24시간 쉬지 않고 거래가 이뤄져 변동성이 크지만, 나라별로 거래량이 몰리는 시간대가 다르기에 대표성을 띠는 시간대를 특정할 수 없다. 그리하여 하루가 바뀌는 시점인 마감 시점(Close)을 기준으로 데이터를 수집하였다. 실물화폐인 금 가격 데이터는 https://tradingview.com에서 수집하였고, 비트코인과 마찬가지로 마감 시점을 기준으로 설정하였다.
3.3 감성사전 및 감성지수 산출
감성분석은 모든 단어에 대한 긍정, 부정, 중립 특징이 명시된 감성 사전을 사용한다. 감성사전은 단어의 등장빈도와 가중치에 따라 전체적인 감성점수의 수치가 다르게 나올 가능성이 농후하다. 이에 Vytautas(2018)는 분석을 위해 도메인에 특화된 감성사전을 채택하여 감성지수를 산출하는 데 사용하였다. 각 감성사전은 한 단어에 해당하는 점수(-1~1)를 제공한다. 일별 감성점수는 감성사전을 토대로 일별 모든 단어의 점수에 대한 평균값으로 계산한다. 본 논문에서는 4가지의 감성사전을 사용하여 사전별로 감성점수의 차이를 검토하였다. 감성사전에 관한 내용은 다음과 같다.
VADER는 긍정, 부정에 따라 라벨링된 감성사전이자 감성분석을 위한 규칙 기반 모델로 다양한 분야에서 좋은 성능을 보인다(Hutto et al., 2014). 특히 소셜 미디어 자료에 대해 강점을 보이며 기존의 바이너리 값으로 긍정과 부정을 나눈 것에서 감성의 정도를 점수로 측정하는 것으로 발전하였다. 이 분석기는 별다른 훈련 데이터가 필요하지 않고, 속도와 성능 사이의 트레이드오프로부터 크게 구애받지 않는다.
TextBlob은 텍스트 데이터를 처리하기 위한 파이썬 라이브러리이다(Loria, 2018). 전처리를 하기 위한 태깅, 명사 추출, 감성 분석, 분류, 번역 등 일반적인 자연어 처리 작업을 위한 API를 제공한다.
LoughranMcDonald_MasterDictionary는 경제 도메인을 분석하기에 유용하게 초점이 맞춰진 감성사전으로서 1994년부터 2018년까지 약 8만여 개의 단어 빈도에 대한 통계정보가 담겨 있다(Loughran, 2016). 단어의 긍정, 부정, 중립에 대한 정보 역시 포함되어 있어, 이를 활용하여 텍스트에 담긴 감성을 수치화하는데 사용할 수 있다. 또한, 이 사전은 단어의 형태 변화를 전부 포함하고 있기 때문에 태깅을 거치지 않은 데이터인 경우에도 유용하게 사용할 수 있다.
NTUSD-Fin는 게재연도를 기준으로 뉴스 및 재무 보고서에 대한 사전이 있긴 하지만 금융 소셜 미디어 데이터에 초점을 맞춘 사전은 거의 없는 시점에서 금융 소셜 미디어에서 검색한 330,000개 이상의 게시물을 기반으로 시장에 대한 감성 사전을 구성하였다(Chen et al., 2018). 이 사전에는 8,331개의 단어와 112개의 해시태그와 115개의 이모티콘이 있으며, 빈도, CFIDF, 카이제곱값, 시장에서의 감성점수 및 토큰에 대한 단어 벡터에 점수를 채점하는 다양한 방법을 제공한다.
3.4 연관성 측정 지표
본 연구는 화폐 가격의 변동에 대해 다른 변수들과 연관성을 갖는지에 대한 기준을 수치로 나타내어 제시한 가설에 대한 검증을 진행한다. 변수 간의 관계를 설명하기 위해 상관분석을 실시하며 이에 대한 척도로서 피어슨 상관계수(pearson correlation coefficient 이하 PCC)를 사용한다. PCC는 두 개 이상의 수치형 자료에 대한 상관관계를 -1과 1사이의 실수로 나타냄으로 두 변수의 선형적 관계를 확인한다. 이 통계적 수치를 통해 화폐 가격과 각 변수들 사이의 상관성에 대해 분석하고, 이들 간의 관계가 유의미한지 판단함과 동시에 정성적 분석을 진행한다.
추가로 통계적 유의성을 확인하기 위해 p-value를 사용한다. p-value는 귀무가설이 맞다고 가정할 때 얻은 결과보다 극단적인 결과가 실제로 관측될 확률이다. p-value는 0에서 1 사이의 값을 가지며 0에 가까울수록 통계적 유의성이 크다고 본다.
4. 연구결과
4.1 구간(Section)별 분석
앞서 제시된 세 구간(태동기, 성장기, 성숙기)에 대한 상관분석 결과는 <Table 3>에서 확인 할 수 있다. <Table 3>은 전체 분석결과 중 대표적으로 NTUSD 감성사전에 의해 산출된 감성지수와 비트코인 가격 간의 상관분석 결과를 나타낸다. Section은 총 5달, Period는 1달, 3달, 5달로 이루어진다.
Section 1은 2016년 5~9월로서, 1 month는 가운데 월인 7월, 3 month는 가운데 3달인 6~8월, 5 month는 전체 기간인 5~9월을 의미한다. 나머지 section도 section 1과 같은 방식으로 구분된다.
태동기에 해당하는 section 1의 경우, 비트코인 가격 변동이 크지 않다(<Figure 3> 참조). Section 1의 비트코인 가격과 소셜 감성지수 사이의 상관관계는 0에 가까운 수치를 보인다. 이는 태동기 특성상 미미한 가격 변동이 viral적 성향이 강한 트위터 감성지수의 변동과 서로 변화의 흐름을 달리함을 나타낸다.
Section 2의 경우 비트코인 가격이 과거 닷컴 버블을 연상케 하는 상승세를 보여준다. 이러한 급변하는 상승세에 소셜 감성은 section 1에 비하여 상관계수가 소폭 상승하였다. Section 2의 전 구간에서 상관계수가 0.359에 통계적으로 유의미한 약한 양의 상관관계를 보인다. 이어서 section 3에서는 비트코인의 가격과 감성점수의 상관관계는 다른 section들과 비교하였을 때 상대적으로 높은 결과가 도출되었다. Section이 지남에 따라 상관계수가 증가하는 추세는 짧은 기간 내에 대폭 증가한 비트코인 거래량도 영향을 미친 것으로 추정해볼 수 있다. Section 1(2016년)에서의 비트코인 거래량은 일평균 약 1300억인 반면, section 3(2019년)에서는 일 평균 약 16조로 100배 이상 증가했기 때문이다. 그러므로 section 1은 거래량이 적은 만큼 소셜 데이터의 양도 적기 때문에 소셜 미디어를 사용하는 개인투자자들의 심리상태가 충분히 반영되기 힘들어 비트코인 가격과의 상관관계를 파악하기에 아쉬운 요소로서 작용하였다.
Section 2보다 section 3의 상관관계가 더 높아진 것을 보았을 때 비트코인이 단기간에 폭등하고 동시에 큰 폭의 등락을 거친 시기를 지나 여전히 이어지는 관심이 감성지수에 대해 양적, 질적으로 전보다 더 잘 표출이 되어 비트코인 가격과 뚜렷한 관계를 나타내는 데 긍정적으로 작용하였다. <Figure 3>의 점선으로 표시된 오른쪽 구간은 가장 상관성이 높은 section인 section 3의 9월, 10월, 11월이며, 상관계수가 0.7보다 높아 전체 기간과 비교하였을 때, 상대적으로 강한 양의 상관관계를 나타낸다. <Figure 4>는 금과 트위터 사이의 관계를 나타낸 그래프이다. 그래프를 보면 구간별로 후반부에만 다른 period에 비해 상대적으로 강한 상관관계 결과가 도출되었다.
4.2 기간(Period)별 분석
본 연구는 각 구간의 가운데 달을 중심으로 기간을 3개월, 5개월로 늘린 것에 대하여도 분석을 진행하였다. <Appendix 1>, <Appendix 2>의 구간 3에서 금과 트위터와의 관계를 제외한 모든 관계는 기간을 늘림에 따라 상관관계가 오히려 줄어드는 경향을 보인다. 이는 기간을 늘림으로써 오히려 화폐가격과 소셜 감성 사이에 상관성이 떨어진다는 것을 의미한다. 이렇듯 화폐가격의 변동과 소셜 감성 지수와의 관계가 지속해서 이어지지 않기 때문에 긴 기간을 두어 비교하는 것보다 월 단위로 바라보는 것이 유의미한 관계가 더 명확하여 상관관계가 가장 잘 드러나는 성숙기를 월별로 분석하였다. 특히 성숙기의 9, 10, 11월의 경우에는 비트코인 가격과 트위터 감성점수는 상대적으로 가장 높은 양의 상관관계(0.703, 0.725, 0.735)를 가지며 유의한 p-value값을 갖는다(<Appendix 3>, <Appendix 4> 참조). 이는 개인투자자들의 심리상태가 가격 변동 흐름에 맞추어 표출되었다는 의미이다. 가장 상관관계가 높았던 구간3의 11월에서 금 가격과 뉴스 데이터 감성점수의 상관관계는 모든 분석기에서 비트코인과 뉴스 상관관계보다 높았지만, MacDonald 분석기(0.565)를 제외하고 뚜렷한 결과를 보이지 않았다.
4.3 토의
본 논문에서 제시한 ‘가설 1’에 대하여 구간 3의 9, 10, 11월에서 비트코인 가격과 트위터 감성지수와의 상관관계는 금과 트위터 감성지수의 상관관계보다 상대적으로 높으며 p-value가 0.05 이하의 값을 가지는 상관계수에 대해서는 비트코인 가격과 트위터 감성지수의 계수가 더 높기에 ‘가설 1 : 트위터와 각 화폐와의 상관계수는 차이가 없다.’를 부분적으로 기각한다(<Appendix 1>~<Appendix 4> 참조). 또한, 앞서 살펴본 구간별 특징과 장기, 단기적 관점의 차이가 연구결과에 반영되었기에, 가상화폐는 미디어에 대대적으로 이슈가 되어 가격 변동이 상대적으로 큰 시기보다 대중의 관심이 적을 때 오히려 소셜 감성과 연관성이 드러난 것으로 나타났다. 그렇다고 구간 3의 모든 월간 분석에서 ‘가설 1’을 만족하지 않은 것을 볼 수 있는데 이는 투자자가 가격이 상승한다고 무조건 긍정적인 단어를 사용하지 않을 수 있고, 반대로 가격하락에 항상 부정적 단어를 사용하는 것은 아니기 때문이다. 또한, 본 연구는 가상화폐에 최적화된 감성사전을 구축한 것이 아니기에 투자자의 심리상태를 정확히 반영했다고 보기 어렵다.
‘가설 2’에 대한 검증을 위하여 뉴스 데이터 감성지수와의 상관관계를 금과 비트코인에 대하여 비교한 결과, 일부 감성분석기에서만 상관관계를 나타내는 것으로 미루어 볼 때 ‘가설 2 : 뉴스와 각 화폐와의 상관계수는 차이가 없다.’는 기각하기 어렵다. 이는 뉴스 데이터가 트위터에 비해 감성 어휘들의 빈도가 상대적으로 부족한 점이 가장 큰 원인으로 파악된다. 또 하나는, 감성 사전 4가지가 뉴스 텍스트 데이터에 적합한지에 대한 신뢰 여부가 희미하다는 점이다. 이는 뉴스 데이터 특성상 감성적 단어보다 정보 전달 위주의 단어가 상대적으로 많기 때문이다.
평균적으로 가장 높은 성능을 보인 감성분석기는 NTUSD이다. NTUSD 분석기는 트위터와 뉴스 모두 높은 성능을 보였으며 이는 성숙기뿐만 아니라 다른 구간에서도 좋은 성능을 보였다. 도메인에 맞는 감성사전 선택의 중요성을 인지하였고, 향후 연구에 적합하게 사용한다면 더 나은 연구 결과를 도출해내는데 이바지할 수 있을 것이다.
상관분석 결과, 소셜 감성과 화폐가격 간의 상관관계는 성숙기 후반부를 제외하고 지속적인 상관성이 드러나지 않았다. 변동 폭이 심한 대체 투자 재화로서의 특징과 시시각각 변하는 가격이 실시간으로 등락의 방향을 같이 해야 한다. 하지만 본 논문의 경우 가격 데이터의 시점을 마감 시점으로 잡은 점이 소셜 감성을 화폐가격과 실시간으로 연결 짓는 것을 다소 어렵게 하였다. 이에 대해 실시간 화폐가격 변동데이터를 활용하여 시간 간격을 더 좁힌다면 더욱 유의미한 관계들을 도출해낼 수 있을 것으로 보인다.
추가로 금과 비트코인 가격과 DJI, DXY와 비교해 봤을 때 일부 기간에 대하여 대체로 음의 상관관계를 띄는 결과가 도출되었다(<Appendix 1>~<Appendix 4> 참조). 이를 토대로 금과 비트코인이 대체투자수단으로서의 속성을 반영하는 경향을 파악하였다.
5. 결 론
본 연구는 가상화폐인 비트코인과 실물화폐인 금에 대해 연관성이 있는 변수로서 트위터 데이터와 뉴스 데이터의 감성점수를 활용하였다. 상관계수를 적용하여 각 화폐가격과 각 감성점수 간의 관계를 살펴보고 제시된 가설을 검증하였다. 비트코인 가격과 트위터 감성점수는 단기간(월별)에서 상대적으로 높은 상관관계를 보여 ‘가설 1’을 부분적으로 기각할 수 있었지만, ‘가설 2’는 의미 있는 수치가 나오지 않아 제시한 가설을 기각하는 데 무리가 있었다. 이에 트위터 데이터의 경우 viral적 성격의 감성적인 어휘들이 다수 포함되어 있지만, 상대적으로 공신력이 강하고 객관적인 어휘들의 빈도가 높은 뉴스 데이터의 특성 때문인 것을 원인으로 꼽았다.
본 논문의 한계점으로는 앞서 언급했던 뉴스 데이터 자체의 속성으로 인해 감성점수 추출의 성능이 좋지 않아 화폐가격과의 연관성을 비교하는데 어려웠다는 점이다. 이는 뉴스라는 매체의 특성상 중립적인 단어들의 빈도가 매우 높기 때문으로 판단한다. 이를 보완하기 위해 화폐가격에 영향을 줄 것으로 예상하는 경제 이슈에 관한 뉴스를 활용하여 감성사전을 업데이트하는 방안을 강구 해보아도 좋을 것이다. 게다가 이러한 뉴스를 통한 당시 경제 상황과 화폐가격 간의 비교를 토대로 정성적 분석을 추가한다면 화폐가격을 설명하기 더 용이할 것이다.
본 연구는 트위터 데이터와 뉴스 기사 데이터를 활용하여 일일 감성점수의 등락에 따라 이해관계자들의 심리상태를 긍정과 부정으로 나누어 확인할 수 있다는 점, viral적 성격을 지닌 트위터와 가상화폐인 비트코인 간의 유의미한 관계를 정량적 수치를 활용해 부분적으로 입증했다는 점, 그리고 실물화폐와 가상화폐를 동시에 비교하여 연구 범위를 확장한 것에 의의가 있다. 기존 연구에 활용되지 않았던 뉴스 기사 데이터의 활용은 추후 데이터 활용의 폭을 충분히 넓힐 수 있을 것으로 기대한다. 향후 연구에서 감성분석기를 세밀하게 조정하여 분석한다면 텍스트 데이터의 특징을 더 잘 표현할 수 있을 것이며, 보다 뚜렷한 상관관계를 파악할 수 있을 것이다. 가상화폐의 실시간 가격 데이터 특성과 상대적으로 변동 폭이 작은 실물화폐의 특성을 고려하면 본 논문의 한계점을 극복할 수 있을 것으로 기대한다.
Acknowledgments
이 논문은 서울과학기술대학교 교내연구비의 지원을 받아 수행되었음(2020.3-2021.2).
References
- Ahmet, T. (2016), https://github.com/taspinar/twitterscraper, .
-
Bollen, J., Mao, H., and Zeng, X. (2011), Twitter Mood Predicts the Stock Market, Journal of Computational Science, 2(1), 1-8.
[https://doi.org/10.1016/j.jocs.2010.12.007]
- Chen, C. C., Huang, H. H., and Chen, H. H. (2018), A Market Sentiment Dictionary for Financial Social Media Data Applications, Proceedings of the 1st Financiall Narrative Processing Workshop(FNP 2018).
-
Dyhrberg, A. H. (2016), Bitcoin, Gold and the Dollar-A GARCH Volatility Analysis, Finance Research Letters, 16, 85-92.
[https://doi.org/10.1016/j.frl.2015.10.008]
-
Ciaian, P., Rajcaniova, M., and Kancs, A. (2016), The Economcs of Bitcoin Price Formation, Applied Economics, 48(19), 1799-1815.
[https://doi.org/10.1080/00036846.2015.1109038]
- Das, D. and Kannadhasan, M. (2018), Do Global Factors Impact Bitcoin Prices? Evidence from Wavelet Approach, Journal of Economic Research, 23, 227-264.
-
Dolan, R. J. (2002), Emotion, Cognition, and Behavior, Science, 298 (5596), 1191-1194.
[https://doi.org/10.1126/science.1076358]
- Hutto, C. J. and Gilbert, E. (2014), VADER : A Parsimonious Rule-Based Model for Sentiment Analysis of Social Media Text, Eighth International AAAI Conference on Wweblogs and Social Media.
- Julia, B. (2019), Facebook Launches a New Cryptocurrency Called Libra, CNBC.
-
Karalevicius, V., Degrande, N., and Weerdt, J. (2018), Using Sentiment Analysis to Predict Interday Bitcoin Price Movements, The Journal of Risk Finance, 19(1), 56-75.
[https://doi.org/10.1108/JRF-06-2017-0092]
-
Kristoufek, L. (2015), What are the Main Drivers of the Bitcoin Price? Evidence from Wavelet Coherence Analysis, PLoS One, 10(4), 1-15.
[https://doi.org/10.1371/journal.pone.0123923]
- Lamon, C., Nielsen, E., and Redondo, E. (2017), Cryptocurrency Price Prediction Using News and Social Media Sentiment, SMU Data Sci. Rev., 1(3), 1-22.
- Lee, S. Y., Ryu, S., and Hyun, J. (2019), An Analysis of Relationship between Social Sentiments and Cryptocurrency Price : An Econometric Analysis with Big Data, Korea Intelligent Information Systems Society, 14-15.
- Loria, S. (2018), Textblob documentation, Release 0.15, 2.
-
Loughran, T. and McDonald, B. (2016), Textual Analysis in Accounting and Finance : A Survey, Journal of Accounting Research, 54(4), 1187-1230.
[https://doi.org/10.1111/1475-679X.12123]
-
Luo, X. and Zhang, J. (2013), How do Consumer Buzz and Traffic in Social Media Marketing Predict the Value of the Firm?, Journal of Management Information Systems, 30(2), 213-238.
[https://doi.org/10.2753/MIS0742-1222300208]
-
Mai, F., Shan, Z., Bai, Q., Wang, X., and Chiang, R, H. (2018), How does Social Media Impact Bitcoin Value? A Test of the Silent Majority Hypothesis, Journal of Management Information Systems, 35(1), 19-52.
[https://doi.org/10.1080/07421222.2018.1440774]
- Matta, M., Lunesu, I., and Marchesi, M. (2015), Bitcoin Spread Prediction Using Social and Web Search Media, UMAP Workshops, 1-10.
-
Munim, Z. H., Shakil, M. H., and Alon, I. (2019), Next-Day Bitcoin Price Forecast, Journal of Risk and Financial Management, 12(2), 103.
[https://doi.org/10.3390/jrfm12020103]
- Narayanan, A., Bonneau, J., Felten, E., Miller, A., and Goldfeder, S. (2017), Bitcoin and Cryptocurrency Technologies : A Comprehensive Introduction, Princeton University, Journal of Economic Literature, 55, 648.
-
Nofsinger, J, R. (2005), Social Mood and Financial Economics, The Journal of Behavioral Finance, 6(3), 144-160.
[https://doi.org/10.1207/s15427579jpfm0603_4]
- Stenqvist, E. and Lonno, J. (2017), Predicting Bitcoin Price Fluctuation with Twitter Sentiment Analysis, School of Computer Science and Communication(KTH).
-
Wu, C. H., Lu, C. C., Ma, Y. F., and Lu, R. S. (2018), A New Forecasting Framework for Bitcoin Price with LSTM, 2018 IEEE International Conference on DataMining Workshop(ICDMW), 168-175.
[https://doi.org/10.1109/ICDMW.2018.00032]
<부록(Appendix)>
박민규 : 한국방송통신대학교 경영학과에서 2018년 학사학위를 취득하고 서울과학기술대학교 데이터사이언스학과 석사과정에 재학중이다. 연구분야는 머신러닝, 기술융합, 금융 데이터 분석이다.
이청록 : 동국대학교 응용통계학과에서 2019년 학사를 취득하고 서울과학기술대학교 데이터사이언스학과 석사과정에 재학중이다. 연구분야는 데이터 마이닝, 머신러닝, 추천시스템이다.
김경옥 : 포항공과대학교 신소재공학과에서 학사학위를 취득하였고, 동대학원 산업경영공학과에서 박사학위를 취득하였다. 삼성경제연구소 연구원으로 재직하였고, 2015년부터 서울과학기술대학교 산업공학과 교수로 재직하고 있다. 연구분야는 데이터마이닝이다.
이영훈 : 서울대학교 산업공학과에서 학사학위를 취득하였고, 동대학원 산업공학과에서 박사학위를 취득하였다. 현대자동차 빅데이터실, LG전자 UX연구소/선행디자인연구소 연구원으로 재직하였고, 2019년부터 서울과학기술대학교 산업공학과 교수로 재직하고 있다. 연구분야는 데이터마이닝, 사용자경험(UX) 디자인이다.