
Text Mining을 활용한 북한의 도발 수준 및 형태 예측
© 2023 KIIE
Abstract
Research into the feasibility of predicting specific events using Text Mining techniques has been actively pursued in conjunction with the advancement of Machine Learning. Consequently, the potential for predicting North Korea's provocations utilizing Text Mining methods has emerged. However, the field lags behind other domains due to challenges in acquiring high-quality training data and the complexity associated with event classification. This study addresses these limitations by leveraging a Pre-trained BERT model to establish a comprehensive classification framework for North Korea's provocative behavior, moving beyond binary classifications (provocation or peace) used in previous research. Original data from the Korean Central News Agency (KCNA) and domestic media sources were gathered and analyzed as training data. Notably, the findings demonstrated that employing original data from the KCNA increased prediction accuracy compared to utilizing data from domestic media. This study offers a way to enhance the informational value of North Korea's provocations through scientific predictions, ultimately bolstering the reliability of qualitative expert judgments.
Keywords:
Text Mining, North Korea, Provocation, Heatmap, BERT, KoBERT, KCNA1. 서 론
북한의 도발은 남북분단 이후부터 현재까지도 계속되고 있으며, 우리 군은 북한의 도발행위를 사전에 감지하고 대응하기 위해 다양한 정보감시 자산을 운용하고 있다. 한편 현대사회에서는 언론기사, SNS 등 비정형 데이터가 급증하고 있으며, 이런 형태의 데이터에 대한 분석은 Text Mining이라는 분야로 발전되어 활발하게 연구가 이루어지고 있다(Lee et al., 2016). 다양한 분야에 걸쳐 진행 중인 텍스트마이닝을 통한 연구는 특정 이벤트의 발생 가능성을 파악하기 위한 방법으로도 발전하고 있으며, 이 방법을 활용하면 북한의 도발을 예측하는 것 또한 가능할 것으로 판단된다.
본 연구에서는 북한의 도발행태를 기존의 연구결과와 같은 이진분류(도발징후 또는 평시)가 아닌 다중분류할 수 있는 기준을 정립하고 수집한 학습데이터와 북한 도발과의 관련성을 살펴보고자 하였다. 우선 탐색적 분석을 통해 수집한 학습데이터와 북한의 도발과의 관련성을 시각적으로 확인하였다. 또한 Pre-trained KoBERT모델을 통해 북한의 도발에 대해 예측 가능성 여부를 확인하고 더 나아가 모델 학습데이터인 북한의 ‘조선중앙통신’ 원문과 남한의 ‘언론기사’의 예측 정확도를 비교분석하여 더 우수한 예측 정확도를 보이는 모델을 확인하고자 하였다.
본 연구는 Text Mining을 활용한 북한의 도발 가능성을 사전에 예측하는 방법에 대한 연구로 과거 사례를 통해 미래 이벤트를 예측하는 연구와 맥락을 같이하고 있다. 북한 도발 가능성 예측에 대한 연구로 Kim(2021)은 KoBERT모델로 텍스트의 숨겨진 문맥적 관계와 패턴을 학습시켜 새로운 문장을 대입시켰을 때 도발징후가 있는 문장인지를 판단하는 연구를 수행했다. 해당 연구는 연구자의 주관적인 도발사례 선정 및 양질의 학습데이터 확보의 어려움과 이벤트(label)분류의 난이도로 제한적인 연구결과를 도출하였다. 또한 모델 테스트를 위한 새로운 자료 입력시 문장 단위의 입력으로 실제 활용적인 측면에서 결과를 활용하기에는 한계점이 있다. Lee and Moon(2016)은 매월 통일부에서 발간하는 ‘월간북한동향’을 학습데이터로 텍스트마이닝을 이용하여 북한의 동향과 대남도발과의 관계를 분석하고자 하였다. 해당 연구에서는 ‘월간북한동향’의 핵심 단어들을 사전으로 구축하였고, 구축된 핵심단어들을 월단위 시계열 분석을 통해 북한도발사례와 연관성을 확인하였다. 해당 연구는 도발관련 핵심단어들과 북한 도발 사례와의 정성적인 판단에 의한 연관성을 확인하는데 의의가 있으나, 명확한 기준에 의한 정량적 분석 관점에서는 한계가 있었다.
한편, ‘조선중앙통신’을 데이터셋으로 활용한 연구도 활발하게 이루어지고 있다. Song and Lee(2015)는 빅데이터 기법을 활용하여 북한의 권력구조를 비교하고자 하였으며, Oh and Lee(2016)는 김정은 정권의 대남정책 및 통일담론 특징을 규명하기 위해 ‘조선중앙통신’을 학습데이터로 활용하였다. Heo and Hong(2020)은 김정은 시기의 ‘조선중앙통신’ 보도내용을 분석하여 핵 담론의 변화에 대해 연구하였다. Kim(2021)은 김정은의 공개활동과 북한 경제와의 연관성을 확인하기 위해 ‘조선중앙통신’의 기사를 활용하는 등 많은 연구자들이 ‘조선중앙통신’의 원문을 활용 및 분석하여 연구 중에 있다. 다만, 이상의 연구들은 특정 이벤트에 대한 예측 보다는 전체적인 동향이나 구조의 변화를 추적하기 위한 연구라는 점에서 여기에서 초점을 맞추고 있는 특정 시점의 도발 수준 예측에 활용하기에는 한계가 있다.
본 연구에서 적용한 북한의 도발 이벤트 분류법과 학습모델을 활용한다면 전문가의 지식과 식견에 중점을 둔 정성적인 판단에 과학적 예측을 통해 전문가 판단의 정확도를 높일 수 있는 방안을 제시할 수 있을 것이다. 이를 위한 본 연구의 전체적인 연구 순서는 <Figure 1> 과 같다. 연구 순서에 맞게 본 연구의 제2장에서는 데이터 수집과, 학습데이터에 대한 설명과 도발 수준 및 형태 정의에 대해서 살펴보고, 제3장에서는 탐색적 분석을 통해 도발 수준 예측 가능성에 대해서 살펴본다. 그리고 제4장에서는 학습모델을 바탕으로 실제 예측 가능성을 테스트 해본다.
2. 북한 도발 수준 및 형태 정의와 학습데이터 수집
2.1 북한 도발 수준 및 형태 정의
국립국어원의 ‘표준국어대사전’에 따르면 도발(挑發)의 정의로는 “남을 집적거려 일이 일어나게 함”으로 명시되어있으며, 군에서는 군사도발(Military Provocation)을 “군대, 군비, 전쟁에 의한 대한민국의 국민과 재산, 영역에 가하는 일체의 위해행위”(R.O.K Joint Chiefs of Staff. 2014)라고 규정하고 있다. 북한은 계속적으로 군사적인 대남 도발행위를 자행하고 있으며, 그 형태와 수준이 나날이 다양해지고 있다. 하지만 북한에 의한 모든 형태의 공격적 행동을 분석 대상으로 설정한다면 잘못된 검정결과를 얻을 가능성이 매우 높기 때문에 분석대상에 적합한 도발을 선정하는 것은 중요하다(Sung et al., 2021). 따라서 본 연구에서는 도발의 구분에 대한 조작적 정의를 살펴보고, 분쟁연구에서 많이 활용되는 국가 간 군사화 된 분쟁(MID4, Militarized Interstate Dispute)개념을 참고하여 북한 도발의 형태를 구분한다. 국가 간 군사화 된 분쟁 개념에서는 도발을 ‘군사적 위협’, ‘군사력 현시’, ‘군사력 사용’ 3단계로 구분하여(Glenn Palmer et al., 2015) 사용한다. 그러나, MID4의 개념에서는 핵실험, 사이버해킹, 전파교란 등에 대해 “피해를 고려했을 때 우선적으로 해결책을 찾아야 하는 대상은 아니다”라는 이유로 도발의 개념에서 제외하였으나 현재 위 3가지 도발 또한 한국에 직접적인 위해를 가하지는 않는다고 할지라도, 한국에 막대한 위협상황을 조성할 수 있는 잠재적 위협능력을 과시하는 행위로 한국의 대응을 유도(Lee et al., 2018)하기 때문에 <Table 1>과 같이 북한의 도발 형태로 추가하였다.
다음은 2012년~2021년까지의 실제 북한의 도발사례를 국방부의 ‘국방백서’(Ministry of National Defense)와 통일부의 ‘남북관계주요일지’(Ministry of Unification, 2012-2021)를 통해 확인한 결과이다. <Table 2>는 앞서 <Table 1>에서 정의한 북한 도발 수준 및 형태에 따라서 실제 도발한 사례를 분류한 것이다.
분류 결과 2012년부터 2021년까지의 기간 동안 분석기준에 적합한 도발 사례 수집 결과 북한은 총 165회의 군사 도발을 자행한 것으로 확인하였다(군사적 위협 50회, 군사력 현시 95회, 군사력 사용 20회).
2.2 학습데이터 수집 및 탐색적 분석
탐색적 분석과 실험 학습모델에 사용할 데이터로 ‘조선중앙통신’ 원문과 ‘국내언론지’ 기사 원문(2012년~2021년)을 수집하였다. 학습데이터로 ‘조선중앙통신’ 원문을 선택한 이유는 무엇보다 조선중앙통신 기사가 북한의 대외적 선전과 국제사회를 향한 메시지 전달 목적이 뚜렷하고 대외적 담론을 생산하는 핵심 매체이기 때문이다(Heo and Hong, 2020). ‘조선중앙통신’ 원문은 총 313건을 수집하였으며, 국내언론지 기사는 전국일간지 11개(경향신문, 국민일보, 내일신문, 동아일보, 문화일보, 서울신문, 세계일보, 조선일보, 중앙일보, 한겨례, 한국일보)의 일간지 기사(278,866건)를 웹크롤링을 통해 수집하였다. 국내언론지 기사 수집시 남북관계에 대해 상대적으로 관련성이 적은 경제일간지나 지역일간지는 데이터수집에서 제외하였다.
본격적인 학습에 앞서 여기에서는 수집한 ‘조선중앙통신’의 원문에서 사용된 단어들과 북한의 대남도발간 유의미한 관계나 패턴이 있는지 시각적으로 확인하고자 한다. 탐색적 분석시 R(ver 4.1.2) 프로그램을 사용하였으며 데이터 전처리 및 형태소 분석을 위해 KoNLP Package 및 ‘NIA 사전’을 사용하였다(Kim, 2021). 2012~2021년의 ‘조선중앙통신’ 원문에 대해 텍스트 전처리 후 명사형 형태소로 구분 결과 총 479,532개의 명사형 단어를 추출하였다. 이산형 변수(단어)간의 정보 시각화를 위해 색상을 통한 열분포 형태로 정보를 제공하는 기법인 히트맵(Heatmap)을 활용하였다. Heatmap 구현을 위해 ① ‘조선중앙통신’ 기사를 월단위로 구분 ② 각 월에서 등장 빈도수가 가장 많은 상위 단어 30개 추출 ③ 각 월별 특징을 나타내는 단어 확인을 위해 추출된 30개 단어들에 대해 TF-IDF의 값이 큰 상위 10개 단어 추출 ④ 추출된 단어(행), 년월(열)로 구성된 Term-Document Matrix(TDM)로 변환하였다. 시각적 비교를 위하여 데이터열에 대해 도발발생(월)과 비도발(월)을 구분하였으며, <Figure 2>와 같은 Heatmap을 구현하였다. Heatmap 구현간 사용한 ③에서 사용한 TF_IDF(Term Frequency - Inverse Document Frequency)의 식은 아래와 같다.
(1) |
식 (1)에서 TF는 해당 단어가 한 문서에 출현한 빈도이고, IDF는 해당 단어가 전체 문서에서 몇 번 출현했는지를 산출하는 값이다. 따라서 IDF는 전체 문서의 수(N)를 해당 단어를 포함한 문서의 수(DF)로 나눈 후 로그를 취하여 얻을 수 있다. 즉 IDF가 높으면 단어가 특정 문서 내에서 출현이 많다는 것을 의미한다(Karen, 1972). 따라서 TF-IDF는 “단어 빈도수에 총 문서에서의 단어의 출현비율의 역수를 취한 값을 이용하여 가중치를 주는 방법”으로, ‘조선중앙통신’ 원문에서 특정단어의 TF-IDF가 높으면 타 원문에서의 다른 단어보다 중요한 의미를 가진다고 해석할 수 있다(Lim, 2015).
Heatmap 구현 결과 3개의 군집형태를 구성하고 있음을 시각적으로 확인하였다. <Figure 2>의 y-label의 단어(총 205개) 배열은 아래 <Table 3>과 같다.
왼쪽 상단의 군집(적색 점선)은 ‘도발’ 기간 중에 사용된 TF-IDF값이 높은 단어이며 ‘로케트’, ‘탄도탄’, ‘전략무기’, ‘비난’등의 단어가 포함되어 있다. 오른쪽 중앙의 군집(청색 점선)은 ‘비도발’ 기간 중에 사용된 단어이며 ‘협력’, ‘종합병원’, ‘군사과학기술’, ‘체육경기’등의 단어가 포함되어있다. 그림 하단부의 군집(녹색 점선)은 ‘도발’, ‘비도발’ 기간과 관계없이 사용된 단어이며 ‘동지’, ‘우리’, ‘혁명’, ‘사업’등의 단어가 포함되어 있다. 결과적으로 Heatmap을 통해 ‘조선중앙통신’ 원문에서 도발/비도발 기간 중 사용되는 단어가 유의미하게 구분된다는 사실을 시각적으로 확인하였다.
3. 실험 설계
3.1 실험 모델 설계
기본 가정으로 북한으로부터 각종 도발이 일어나기 전 간과하거나 미처 인지하지 못한 징후들이 사전에 있을 것이고, 도발 시기에는 명확하고 뚜렷한 징후가 다수 나올 것이라는 것을 전제로 모델을 구성하였다. 모델 설계간 SKT Brain에서 공개한 한국어 BERT 모델(KoBERT)을 바탕으로 학습을 진행하였다. BERT(Bidirectional Encoder Representations from Transformers)는 이름에서와 같이 양방향 자연어 처리 모델이기 때문에 GPT등 단방향 언어 모델보다 특정 이벤트를 예측하는 능력이 우수하기 때문에 본 연구에서 높은 성능을 보일 것으로 판단하였다. 또한 대량의 텍스트 데이터를 바탕으로 Pre-trained된 모델을 토대로 특정 목적을 위해 추가적으로 전이 학습(Fine-tuning)이 가능하기 때문에, 짧은 학습 시간 대비 우수한 성능을 내는 장점이 있다(Yang et al., 2023).
데이터셋은 북한 도발의 사전 징후를 확인하기 위해 2.1에서 수집한 북한 도발 사례를 바탕으로 도발 발생 한 달 전부터 발생일 전날 까지를 도발기간, 그 외의 기간을 비도발기간으로 구분하였다. 그리고 예측 결과가 도발/비도발 구분을 위한 이진분류(Binary classification)가 아닌 다중분류(Multi classification)를 위해 도발기간 내에 있었던 도발사례를 앞서 조작적 정의로 구분하였던 도발 형태를 기준으로 분류하여 ‘국내언론지’와 ‘조선중앙통신’ 각각의 원문에 해당되는 label(0,1,2,3)을 <Table 4>와 같이 부여하였다.(‘0’은 비 도발기간에 생산된 원문)
3.2 실험 모델 평가
KoBERT모델 구현간에는 파이썬(python) 프로그래밍 언어를 사용하여 연구를 진행하였다. 모델구현간 학습데이터의 교차검증을 위해 일반적으로 가장 많이 사용하는 K-Fold CV 방법을 사용하였으며(Cho, 2020), 국내언론사 기사와 조선중앙통신 기사의 Training Data 10%를 K-fold CV(k=10) 이용하여 Validation Data로 구축하였다. 학습 횟수는 epoch은 2부터 4까지, 순차적으로, batch size는 메모리 과부하를 방지하기 위해 적정수준인 8, 16을 적용하여 정확도를 비교해 본 후 가장 높은 정확도를 보인 epoch과 batch size를 초모수로 지정하여 최적화된 모델을 제시하도록 하였다. 참고사항으로 해당 모델은 epoch 5부터 평가단계에서의 정확도 향상 증가 수준이 대폭 낮아졌다.
실험결과 <Table 5>와 같이 epoch 4, batch size 8에서 우수한 정확도를 보였으며, ‘조선중앙통신’에서는 학습단계와 평가단계에서 92.8%, 63.6%를, ‘국내언론지’에서는 각각 79.2%, 32.6%의 정확도를 보였다.
3.3 새로운 기사 입력 결과
연구자가 학습데이터로 사용한 데이터 외에 정확도를 테스트하기 위해 새로운 기사를 입력하고 도발징후가 없는지(0), 형태(수준)별로 구분을 하는지(1,2,3) 실험을 진행해보았다. 새로운 기사는 모델이 학습되지 않은 2022년도 조선중앙통신 원문과 국내언론 기사를 활용하였으며, 각각 15건의 기사를 임의로 선택 및 입력하여 분류예측 하였다. 새로운 기사입력 결과 ‘국내언론지’ 기사는 15개의 도발내용 중 6개, ‘조선중앙통신’ 원문은 15개의 도발내용 중 11개의 도발 수준 및 형태를 구분하는데 성공하였으며, 세부결과는 <Table 6>과 같다. 결과적으로 새로운 기사 입력시에도 ‘조선중앙통신’을 이용한 학습모델의 결과가 도발 예측 정확도가 높았으며, 평가단계에서 보인 63.6% 이상의 정확도를 갖는다는 것을 확인하였다.
4. 결 론
본 연구는 텍스트 마이닝을 활용하여 북한의 도발을 예측하고자 하였으며 연구간 자연어처리에 높은 성능을 보이는 KoBERT모델을 사용하였다. 연구결과를 정리하면 다음과 같다. 첫째, 북한의 ‘조선중앙통신’ 원문에서 도발/비도발 시기 간에 사용되어지는 단어가 구분될 수 있다는 것을 탐색적 분석방법인 Heatmap을 통해 시각적으로 확인하였다. 둘째, Pre-Trained KoBERT모델을 활용해 북한의 도발 수준 및 형태 예측이 가능하며 특히, 단순한 이진분류(도발징후 있음, 없음)가 아닌 다중분류(도발징후 없음, 군사적 위협, 군사력 현시, 군사력 사용)가 가능함을 보였다. 물론 다중분류간에는 북한의 도발에 대한 정확한 정의와 형태구분이 선행되어야 한다. 셋째, ‘국내언론’기사와 ‘조선중앙통신’ 원문의 학습모델 정확도를 비교하였다. 모델의 평가단계 정확도 비교 결과 ‘조선중앙통신’ 원문을 활용한 학습모델의 정확도가 더 우수함을 확인하였으며, 새로운 데이터 입력 결과 또한 ‘조선중앙통신’ 원문을 학습한 모델이 더 높은 예측 정확도를 보였다. 따라서 모델의 학습데이터 선택 시 ‘국내언론’ 기사 보다 북한의 ‘조선중앙통신’ 원문을 활용하는 것이 더욱 효과적임을 확인할 수 있었다.
본 연구는 텍스트 마이닝을 통해 북한의 도발을 예측할 수 있음을 보인 연구이다. 이 과정에서 도발의 형태를 체계화하고, 데이터 종류에 따라 도발 예측 가능성이 달라질 수 있음을 보였다. 향후 예측 정확성이 더 높은 모델을 구현하기 위한 학습데이터(국내자료, 외신기사 등)의 선정과 관련된 추가 연구, 도발기간 선정시 도발 기간에 따른 기간의 길이를 달리하는 연구, 도발징후가 있는 문서가 발견되었을 때 특정 도발이 발생하기까지의 시간 지연(Time lag)현상에 관한 연구로 확장된다면 현장에서의 응용 가능성이 더욱 높아질 것으로 판단된다.
References
- Cho, T. H. (2020), Everyone's Deep Learning (2nd Edition), Gilbut, Seoul, Korea.
-
Hur, J. Y. and Hong, Y. P. (2020), Continuity and Change of North Korea’s Nuclear Discourse under the Kim Jong-un regime, Korean Journal of International Relations, 60(4).
[https://doi.org/10.14731/kjir.2020.12.60.4.171]
- Kim, D. H. (2021), BERT-Based Catching Signs of Provocation of North Korea Using Language Modeling, Seoul University.
- Kim, S. K. (2021), Economy Revealed in Articles of Kim, Jong-un’s Public Activities: Text Mining Analysis, North Korean Studies University.
- Kim, Y. W. (2021), Easy to learn R text mining(DO it!), EasysPublishing, Seoul, Korea.
- Lee, C. Y. and Moon, H. S. (2016), Study on analysis of North Korea's news trends associated with provocations using text mining, Journal of National Defense Studies, 59(4),103-124
- Lee, C. Y., Jin, H. W., and Moon, H. S. (2016), Study on Constructing a core dictionary and trend analysis of North Korea using Text-mining, Conference on Korean Operations Research and Management Science Society, 4817-4822.
- Lee, H. R., Lee, J. G., and Jeon, J. W. (2018), Changes in North Korean Provocations and Research on Inter-Korean Relations, Korea Institute for Defense Analyses, 20
- Lim, D. H. (2015), Big data analysis using R, FreeAcademy, Seoul, Korea.
- Ministry of National Defense. Defense White Paper(2012, 2014, 2016, 2018, 2020).
- Ministry of Unification. Key Highlights of Inter-Korean Relations (2012.1.a. ~ 2021.12.a.).
- Oh, G. S. and Lee, K. H. (2016), Analysis of the Kim Jong-un Regime’s South Korea Policy and Unification Discourse through Text Mining, Korea Institute for National Unification.
-
Palmer, G., D'Orazio, V., Kenwick, M., and Lane, M.(2015), MID4 dataset, Conflict Management and Peace Science, 222-242.
[https://doi.org/10.1177/0738894214559680]
- R.O.K Joint Chiefs of Staff (2014), Joint and Combined Operations Military Glossary.
- Song, J. H. and Lee, S. W. (2015), Analysis of North Korea's power structure using big data techniques: A comparison of the Kim Jong-il and Kim Jong-un eras, International Conference on North Korean studies, 52-90.
-
Sparck Jones, K. (1972), A statistical interpretation of term specificity and its application in retrieval, Journal of documentation, 28, 11-21.
[https://doi.org/10.1108/eb026526]
-
Sung, K. E., Hwang, W. J., and Shin, G. (2021), A Study on Causes of the North Korean Provocations: Empirical Evidence 1955-2012, Strategic Studies, 28(2),189-218
[https://doi.org/10.46226/jss.2021.07.28.2.189]
-
Yang, J. H., Lee, C. H., and Kim, S. B. (2023), Development and Utilization of Voice Phishing Prevention Service through KoBERT-based Voice Call Analysis, KIISE Transactions on Computing ing Practices, 29(5), 205-213.
[https://doi.org/10.5626/KTCP.2023.29.5.205]
차선교 : 목포해양대학교 조선해양공학과에서 2012년 학사학위를 취득하고 국방대학교에서 군사운영분석과 석사과정에 재학중이다. 연구분야는 데이터마이닝, Agent Based Modeling이다.
윤봉규 : 연세대학교 경영학과에서 1996년 학사, 1998년 한국과학기술원 산업공학 석사, 2002년 산업공학 박사학위를 취득하였다. 현재 국방대학교 운영분석전공 교수로 재직하고 있으며, 연구분야는 Agent Based Modeling/Complexity Theory, Stochastic Models in Military O.R, Biz.Performance Optimization & Innovation이다.