About the Journal

Journal of the Korean Institute of Industrial Engineers - Vol. 48 , No. 2


[ Article ]
Journal of the Korean Institute of Industrial Engineers - Vol. 48, No. 2, pp. 138-150
Abbreviation: JKIIE
ISSN: 1225-0988 (Print) 2234-6457 (Online)
Print publication date 15 Apr 2022
Received 08 Nov 2021 Revised 14 Jan 2022 Accepted 03 Feb 2022
DOI: https://doi.org/10.7232/JKIIE.2022.48.2.138
버티컬 검색에서의 확률 그래픽 모델 기반 클릭모형
최우식¹^{, 2} ; 김성범¹^{, †}

1고려대학교 산업경영공학과

2네이버 AiRSearch
A Novel Probabilistic Graphical Model-Based Click Model for Vertical Search
Woo-Sik Choi¹^{, 2} ; Seoung Bum Kim¹^{, †}
1Department of Industrial and Management Engineering, Korea University

2AiRSearch, Naver Corporation

Correspondence to : ^†김성범 교수, 02841 서울특별시 성북구 안암로 145, 고려대학교 산업경영공학과, Tel : 02-3290-3397, Fax : 02-929-5888, E-mail : sbkim1@korea.ac.kr
© 2022 KIIE

Abstract

Modern search engines provide the result including not only the traditional web documents, but also the segments aggregated with specialized information such as images, videos, and news, called vertical, to the users. Most click models associated with vertical search were designed to reduce various biases caused by verticals in search engine result pages to evaluate user behavior of web documents. However, evaluation of verticals themselves has not been conducted. In this paper, we propose vertical click models to analyze user behavior associated with both verticals and documents. The proposed click models based on probabilistic graphical model framework directly reflect events occurred in verticals and documents, so that they allow to elaborately calculate and evaluate the preference of verticals felt by the user. The proposed models were evaluated with a click log dataset from the popular commercial search engine in Korea. The results demonstrated superiority of our model over existing models in terms of normalized discounted cumulative gain.


Keywords: Vertical Search, Click Model, User Behavior Analysis

1. 서 론

근래에 존재하는 검색엔진 제공자들은 사용자들의 다양한 검색 의도와 요구를 만족시키기 위하여 여러 방법으로 검색엔진을 발전시키고 있다. 사용자들이 입력하는 검색 질의 수는 하루에도 셀 수 없이 많으며, 이 중 상당수는 검색어를 입력한 사용자에게 맞춘 요약된 정보를 얻으려 하기 위함이다 (Dumais et al., 2003). 이러한 요구를 해결하기 위한 가장 대표적인 방식은 버티컬 검색(vertical search)이다. 이는 전통적인 웹 검색 결과뿐만 아니라 이미지, 동영상, 뉴스, 지도, 리뷰 등 다른 정보들을 버티컬이라 불리는 형태로 각각 정리하고, 정리된 결과들을 통합하여 보여주도록 하는 검색 환경이다 (Markov et al., 2014). <Figure 1>은 ‘BTS Butter’ 질의에 대한 구글 웹 검색 결과와 버티컬 검색 결과를 나타낸다. 구글 검색엔진이 만들어진 당시에는 <Figure 1>의 (a)와 같이 페이지 별로 10개의 웹 문서 즉, URL 링크를 제공하였으나, 현재는 <Figure 1>의 (b)와 같이 웹 문서 결과 이외에도 공식 뮤직비디오, 가사, 연관 검색 질의 등을 별도의 버티컬로 구성하여 전달하고 있다. 특히 공식 뮤직비디오는 해당 질의의 검색 결과로서는 가장 공신력있는 정보이므로 검색 결과 최상단에 표시하기에 가장 적합하다. 이처럼 버티컬 검색은 사용자가 입력한 질의에 맞는 버티컬을 선택하고 정렬하며, 이를 통해 사용자에게 전통적인 웹 검색 환경보다 훨씬 간편하게 원하는 정보를 제공한다. 그러나, 실제로 사용자의 의도에 맞는 버티컬이 적절하게 배치되었는지를 제공자가 반드시 확인해야 하는데, 버티컬 검색 환경이 도입됨에 따라 변화하는 사용자의 사용 패턴을 잘 반영해야 함에도 불구하고, 이러한 연구들은 여전히 원활하게 이루어지고 있지 않다. 따라서, 버티컬 검색엔진이 적합한 버티컬을 선택하고 정렬을 시키는지를 평가하는 것은 현대 검색엔진에 있어서 매우 중요하고도 도전적인 과제이다 (Arguello et al., 2009; Wang et al., 2013).

Figure 1.
Example of (a) Traditional Web Search and (b) Vertical Search Structure

사용자들의 묵시적 피드백(implicit feedback)을 잘 이해하는 것은 검색엔진 결과를 평가하고 시스템의 품질을 향상시킴에 있어서 필수적이다. 검색엔진의 품질은 클릭, 스크롤, 페이지 조회 시간 등의 사용자 피드백을 통해서 유추할 수 있으며, 이러한 정보는 click through rate(CTR) 예측, 순위 학습, 질의 추천, 질의 변형 등의 각종 정보 검색 연구 분야에 사용된다(Wang et al., 2013; Joachims et al., 2009). 사용자 피드백을 처리하는 방법 중 잘 알려진 방법은 클릭모형(click model)이다. 클릭모형은 주로 클릭을 사용하여 구축한 검색엔진 결과 페이지에서의 클릭 발생 패턴을 모사하는 모델을 의미하며, 이는 사용자의 검색 니즈를 만족시키기 위하여 묵시적 피드백 결과를 이해하고 검색 품질을 향상시키는 데에 널리 사용된다(Wang et al., 2013; Chuklin et al., 2015). 단, 클릭 자체는 검색 결과에서의 문서 순서, 결과 페이지의 형태, 사이트의 평판 등에 따라서 매우 편향되어 나타나므로, 클릭모형을 만듦에 있어 핵심적인 해결 과제는 검색 결과의 편향성을 잘 설명하고 비편향적인 사용자 선호도를 획득하는 것이다(Craswell et al., 2008).

기존 연구에서도 버티컬 검색에서 나타나는 각종 편향성을 다루는 클릭모형을 제시하였으며, 주로 버티컬이 존재함에 따라 나타나는 사용자 행동 변화 확인(Wang et al., 2013; Chen et al., 2012), 혹은 사용자의 검색 의도 파악(Chuklin et al., 2013)을 확률 그래픽 모델(probabilistic graphical model) 형태를 기반으로 진행하였다. 그러나 기존의 모든 연구에서는 검색 결과에서 나타나는 웹 문서들의 비편향적 선호도를 얻는 데에 초점을 맞추었고, 버티컬 자체에 대한 사용자들의 행동이나 선호도를 다루는 연구는 존재하지 않았다.

본 논문에서는 버티컬 검색엔진에 맞는 새로운 클릭모형을 제시한다. 제안하는 방법은 확률 그래픽 모델을 새롭게 구성하여 버티컬과 문서의 선호도를 동시에 획득함으로써, 버티컬 검색 환경에서의 편향성을 제거함과 동시에 버티컬의 선호도를 보다 알맞게 계산하도록 하였다. 이에 따라서 사용자가 원하는 버티컬을 검색 결과 페이지 상단에 잘 배치하여 사용자의 검색 만족도를 향상시키는 데에 목표를 두고 있다.

제안하는 클릭모형에 대한 성능은 normalized discounted cumulative gain(NDCG)으로 평가한다. NDCG는 검색 품질을 나타내는 대표적인 지표로, 사용자가 원하는 순서대로 나열하면 1, 그렇지 않으면 0에 가까운 숫자를 얻게 된다(Järvelin and Kekäläinen, 2002). 제안하는 클릭모형과 기존에 제시된 클릭모형을 단순 변경하여 버티컬 검색에 맞춘 클릭모형 두 가지를 NDCG를 통해 비교함으로써, 제안하는 모델의 우수성을 입증하고자 한다.

제2장에서는 기존에 진행되었던 버티컬 검색, 클릭모형과 관련된 연구를 소개하고, 제3장에서는 본 논문에서 제안하는 클릭모형에 대해 설명한다. 클릭모형을 비교하기 위해 설계한 실험과 사용한 데이터, 그리고 평가 지표를 제4장에서 서술하고, 제5장에서는 실험 결과를 서술한다. 마지막으로 제6장에서는 본 논문의 결론을 서술한다.

2. 관련 연구

2.1 버티컬 검색

전통적인 검색엔진에서는 페이지 별로 10개의 웹 문서 링크를 제공하였다. 이러한 방식은 사용자의 요구가 점점 다양해지면서 단순히 하나의 문서나 카테고리의 결과만으로는 사용자를 만족시킬 수 없게 되면서 효과적이지 않게 되었다(Chen et al., 2012). 따라서 많은 검색엔진에서는 사용자들이 만족할 만한 형식의 문서들을 하나로 집약하여 보여줄 수 있는 버티컬을 생성하였고(Chen et al., 2012), 이는 검색 결과에서의 사용자 경험을 증진시키는 데 도움이 되었다(Wang et al., 2013).

버티컬 검색과 관련된 기존 연구들에서는 어떤 버티컬이 사용자가 입력한 질의와 연관이 있고 어떻게 배치하는 것이 좋을지에 대해서 중점적으로 연구하였다. Diaz(2009)는 뉴스 이벤트와 주제들을 분석하여 검색어와의 연관도를 분석하고, 이를 토대로 뉴스 결과를 전달할 질의를 선정하였다. 또한 사용자 클릭 피드백 정보를 이용하여 뉴스 버티컬 노출의 적합성을 파악하여, 적절하지 못한 결과를 내보내지 않도록 하였다. Arguello et al.(2009)은 18종류의 버티컬 중 질의에 적합한 버티컬을 선택하는 문제를 해결하였다. 적합도 계산을 위하여 관리자의 판단에 의해 질의 카테고리 별로 연관이 있는 버티컬을 나타내는 자질과 지명 등의 지리적 명칭을 나타내는 자질 등 검색 단어 자체에 대한 자질, 검색 로그를 활용한 자질, 문헌 정보를 활용한 자질을 사용하여 질의 별로 버티컬을 분류하고, 기준점을 넘는 버티컬을 검색 결과에 제시하는 것으로 문제를 해결하였다. Arguello et al.(2010)은 11개의 버티컬의 적합도를 기계학습 모델을 통해 계산하고자 하였다. 해당 연구에서는 Arguello et al.(2009)에서 제시한 자질과 전문가가 평가한 적합도를 사용하여 gradient boosted regression tree 모델로 예측하고 검색엔진에 반영하였다. Diaz and Arguello(2009)에서는 검색엔진에 반영한 버티컬 선택 모델을 사용자 피드백 정보를 이용하여 업데이트하는 모델을 제시하였다.

2.2 클릭모형

클릭모형은 검색엔진 결과 페이지에서의 클릭 발생 패턴을 모사하는 확률적 모델을 의미한다(Craswell et al., 2008). 확률 그래픽 모델(Koller and Friedman, 2009)을 기반으로 하는 클릭모형이 주로 연구되었으며, 사용자의 문서 인지 여부(examination), 클릭 여부, 스킵 여부 등의 이벤트들을 관찰하여, 질의 별로 문서에 대한 사용자 매력도(attractiveness)를 계산하도록 하였다(Borisov et al., 2016).

클릭모형에서 정의하는 주요 이벤트는 다음과 같다.

∙ E: 검색엔진 결과 페이지에서 문서의 사용자 인지 여부
∙ A: 문서의 매력 여부
∙ C: 문서의 클릭 여부
∙ S: 문서 조회 후 사용자의 만족 여부

또한 기본적으로 인지 가설(examination hypothesis)이라 하는 다음의 가설을 충족하도록 한다.

Cu=1↔Eu=1,Au=1

(1)

이는 특정 문서 u를 클릭하였다는 것은, 그 문서를 사용자가 인지하였고 매력이 있다고 판단한다는 것과 동일하다는 의미이다. 특정 문서를 검색 결과 상 최상단에 배치를 할 경우 사용자는 이를 반드시 보는 것으로 가정하는데(Craswell et al., 2008), 따라서 문서의 매력 여부는 문서의 위치에 따른 편향성을 해소한 비편향적인 문서의 클릭 확률이라 해석할 수 있다.

Craswell et al.(2008)은 검색 결과 페이지 내 문서의 위치에 따른 편향성을 설명하는 position-based model(PBM)을 제시하였다. 이는 인지 가설을 사용한 간단한 형태의 클릭모형으로서, 질의와 문서에 따라 매력도를 계산하고, 검색 결과 페이지 내의 문서 랭크에 따른 인지 확률을 직접 계산한다. PBM의 수식은 다음과 같이 정의한다.

PCu=1=PEu=1•PAu=1

(2)

PAu=1=αuq

(3)

PEu=1=γr

(4)

여기서 α_uq는 질의 q, 문서 u에 대한 매력도, γ_r은 문서 u가 등장한 랭크 r에 따른 인지 확률이다. PBM은 간단한 수식으로 매력도, 인지 확률을 추정할 수 있다는 장점이 있으나, 각각의 문서 별로 이를 독립적으로 계산하기 때문에 실제로는 랭킹 순서 상 먼저 등장하는 문서의 클릭 여부에 따라 해당 문서의 클릭 확률이 달라질 수 있는 점을 고려하지 못하는 한계점이 있다.

Dupret and Piwowarski(2008)는 user browsing model(UBM)을 제안하였다. UBM은 PBM을 확장한 것으로, 문서의 인지 확률을 페이지 내에서 이전에 클릭한 문서의 랭크에 따라서 반영할 수 있도록 하였다. UBM의 인지 확률은 다음과 같이 정의한다.

PEu=1C1=c1,…,Cr-1=cr-1=γrr' r'=maxk∈0,…,r-1∶ck=1

(5)

r^ʹ은 현재 문서 u보다 높은 랭크의 문서 중 마지막으로 클릭한 문서의 랭크를 의미하며, 사용자는 문서를 최상단부터 하단으로 순서대로 확인한다고 가정한다. 특정 검색 결과에서 생성되는 UBM의 형태는 <Figure 2>와 같다. 이전 문서 랭크에서의 클릭이 이후에 존재하는 문서의 인지 여부에 영향을 미치도록 하며, 실제로는 식 (5)와 같이 랭크 상 마지막으로 클릭한 문서에 대해서만 인지 여부에 영향을 주도록 한다. 이처럼 UBM은 PBM과는 다르게 상단에 존재하는 문서의 클릭 여부를 같이 반영하여 좀 더 정교한 문서 인지 확률 계산이 가능하다는 장점이 있다. 그러나, 단순히 랭킹 상 클릭 여부만을 반영하고, 실제 문서의 품질에 따라서도 클릭 확률이 달라질 수 있는 점을 반영하지 못한다. 예를 들어, 특정 문서를 클릭하여 조회하였고 사용자가 해당 문서에 있는 정보로 매우 만족했다면, 랭킹 상 하단에 있는 문서를 확인할 확률이 낮아지므로 클릭 확률 또한 같이 낮아진다.

Figure 2.
Graphical Representation of the User Browsing Model

Chapelle and Zhang(2009)은 가장 대표적인 클릭모형인 dynamic Bayesian network model(DBN)을 제안하였다. 이는 PBM, UBM과는 다르게, 사용자가 문서를 인지하였을 때의 클릭 확률인 α뿐만 아니라, 실제로 문서를 조회한 후의 만족도 σ를 같이 계산한다. DBN은 다음의 수식으로 정의한다.

PCu=1=PEu=1•PAu=1

(6)

PAu=1=αuq

(7)

PE1=1=1

(8)

PEr=1Er-1=0=0

(9)

PSu=1Cu=1=σuq

(10)

PEr=1Sr-1=1=0

(11)

PEr=1Er-1=1,Sr-1=0=τ

(12)

위의 수식에 따르면, 만약 사용자가 문서를 클릭한 후 특정 문서 u에 대해 만족하였다면 랭킹 상 하단에 있는 결과는 확인하지 않고, 또한 사용자는 문서를 인지하였는데 매력 있다고 판단하지 않았거나 클릭하였는데 만족하지 않았다면 지속 확률 τ로 검색 결과 페이지의 확인을 계속한다. 수식에서 만족도와 지속 확률을 반영함에 따라서, DBN은 PBM, UBM과는 다르게 문서의 품질에 따른 인식 확률, 매력도 등을 보다 정교하게 계산할 수 있다. 또한 DBN은 랭킹 상 하단에 있는 문서의 클릭 여부에 따라서도 추정 파라미터가 달라지는 특징이 있는데, 이는 DBN에서 하단에 있는 문서가 클릭이 된 경우에는 그 이전까지의 문서는 모두 인지하였다고 가정하기 때문이다. 예를 들어, 검색 결과에서 두 번째 문서와 네 번째 문서가 클릭되었을 때 세 번째 문서는 DBN에서는 인지한 것으로 가정하나, PBM, UBM에서는 인지 여부를 알 수 없는 것으로 판단한다는 의미이다. 따라서 이 경우에는 랭킹 상 상단에서 클릭이 발생하지 않았던 첫 번째 문서와 세 번째 문서는 매력이 없고, 클릭이 발생한 두 번째 문서는 사용자가 만족하지 않았다는 정보를 얻는다. PBM, UBM, DBN 세 가지 클릭모형의 네트워크 형태를 도식화한 결과는 <Figure 3>에서 확인할 수 있다.

Figure 3.
General Representation of the (a) Position-Based Model, (b) User Browsing Model, and (c) Dynamic Bayesian Network Model

그러나, 위에서 소개된 클릭모형들은 전통적인 웹 검색 형태에서의 문서 매력도나 만족도를 구하고자 하였기 때문에, 버티컬 검색 형태에 바로 사용하기는 부적절하다. 따라서, Wang et al.(2013)은 UBM을 변형한 vertical-aware click model(VCM)을 제시하였다. 해당 연구에서는 검색 결과 상에서 버티컬이 보다 눈에 띈다는 점을 감안한 편향성, 버티컬이 최상단으로 노출될 경우 클릭이 더 크게 증가한다는 점을 고려한 편향성 등을 고려한 모델로, 버티컬이 검색 결과에서 존재하는 것에 따른 편향성을 더 잘 설명하고 웹 문서의 매력도와 인지 확률을 정교하게 계산할 수 있도록 하였다. VCM에서는 검색 결과 페이지 상 한 개의 버티컬이 존재한다고 하였을 때, 해당 버티컬을 가장 먼저 확인하는 이벤트를 F, 버티컬 확인 후 상단에 있는 문서를 버티컬에서 가까운 순서로 인지하는지에 대한 여부를 B로 정의하고, 해당 이벤트들이 발생하였을 때의 사용자 반응을 모델링하였다. Wang et al.(2013)이 제시한 VCM 수식은 다음과 같다.

PF=1=ϕtr

(13)

PB=1F=0=0

(14)

PB=1F=1=πtr

(15)

PEr=1F=0,C1=c1,…,Cr-1=cr-1=γrr'

(16)

PEr=1F=1,C1=c1,…,Cr-1=cr-1=γrr'+θqr

(17)

PAr=1Er=1,F=0=αuq

(18)

PAr=1Er=1,F=1=αuq+μqr

(19)

ϕ_tr은 버티컬의 종류 t, 버티컬 랭킹 r에 따른 버티컬 우선 확인 확률, π_tr은 버티컬 우선 확인 시의 문서 확인 순서 변화 확률이다. 또한 버티컬 우선 확인 시의 인지 확률과 매력도에 대한 질의 및 문서 랭크 별 영향을 각각 θ_qr, μ_qr로 정의하였다. 이를 통해 버티컬이 검색 결과에 존재함에 따른 매력도 및 인지 확률 변화를 잘 설명할 수 있도록 하였다. 그러나, 해당 클릭모형은 버티컬이 동시에 다수 존재하는 경우에는 사용할 수 없으며, 버티컬 자체의 매력도나 인지 확률을 계산하지 않는 한계점이 있다.

Chuklin et al.(2013)은 intent-aware click model을 제시하였다. 해당 연구에서는 사용자의 의도를 확률로 정의하였는데, 이는 각각의 질의에 대해서 뉴스 결과를 얻기 위해 검색을 한 것인지, 이미지나 동영상 등 멀티미디어 정보를 얻기 위해 검색을 한 것인지, 아니면 특정 사이트에 접속을 하기 위해 검색을 한 것인지 등을 확률값으로 사전에 정의한 것이다. 예를 들면, ‘BTS Butter’라는 질의는 뮤직비디오와 같은 멀티미디어 결과를 얻고자 검색했을 가능성이 높으므로, 멀티미디어 검색 의도 확률을 높게 설정하는 것이다. 이러한 의도 확률과 문서의 형태에 따라 매력도와 인지 확률을 계산할 수 있도록 하였다. Chuklin et al.(2013)은 UBM 기반의 클릭모형인 UBM-IA를 제안하였으며, UBM-IA의 수식은 다음과 같이 정의된다.

PC1,…,Cn=∑iPI=i•PC1,…,CnI=i

(20)

PEr=1Gr=b,I=i,C1=c1,…,Cr-1=cr-1=γrr'b,i

(21)

PCr=1I=i,Er=1=αuqi

(22)

G는 문서의 표시 형태 즉, 뉴스나 스니펫이 포함된 형태 등의 문서 타입 버티컬 혹은 일반 웹 문서를 의미하며, I는 사전에 질의 별로 정의된 사용자의 검색 의도 확률이다. 이를 통해 사용자의 의도 확률 및 문서 형태 별 매력도 및 인지 확률을 각각 계산하고, 최종적으로는 의도 확률에 따른 가중합으로 클릭 확률을 정교하게 계산하도록 하였다. 그럼에도 불구하고, 해당 연구를 현재의 버티컬 검색에 적용하기에는 한계점이 존재한다. 여기서의 버티컬은 기존 웹 문서에 뉴스, 스니펫이나 썸네일 등이 추가된 문서를 의미한 것으로, 이미지와 같이 여러 링크들이 기존 문서와는 전혀 다른 새로운 형태로 조합되어 있는 버티컬을 고려하고 있지 않기 때문이다.

3. 제안 방법

본 장에서는 제안하고자 하는 버티컬 검색에서의 확률 그래픽 기반 클릭모형에 대해 서술한다. 기존 클릭모형에서는 버티컬에 대해서 문서와 동일한 방식의 매력 여부, 인지 여부 이벤트 등을 다루고 있지 않으므로, 본 논문에서 버티컬 관련 이벤트 및 가설을 설명하고 확률 그래픽 모델 기반의 클릭모형 구성 방법에 대해서 설명한다.

3.1 이벤트 및 가설

제안하는 클릭모형에 대한 이벤트를 다음과 같이 정의한다.

∙ EV: 검색엔진 결과 페이지에서 버티컬의 사용자 인지 여부
∙ ED: 문서의 사용자 인지 여부
∙ AV: 버티컬의 매력 여부
∙ AD: 문서의 매력 여부
∙ CV: 버티컬의 클릭 여부
∙ CD: 문서의 클릭 여부
∙ SV : 버티컬 내 문서 클릭 후 사용자의 만족 여부

또한 버티컬 검색 클릭모형은 아래의 기본 가설들을 충족하도록 하였다.

EDu=1↔EVa=1,AVa=1,u∈a

(23)

CDu=1↔EDu=1,ADu=1

(24)

CVa=1↔∑u∈aCDu≥1

(25)

ED1=ED2=⋯=EDr, r=the number of documents in the collection

(26)

식 (23)에 따라 만약 사용자가 특정 버티컬 a를 인지하였고 매력 있다고 판단하였을 경우, 사용자는 버티컬 a 안에 존재하는 문서 u를 확인한다. 나아가서 사용자가 문서 u 또한 매력 있다고 판단할 경우 식 (24)와 같이 문서 u를 클릭한다. 이는 기존 클릭모형에서의 인지 가설인 식 (1)과 동일하다. 버티컬 a에 속해있는 문서 중 하나 이상을 사용자가 클릭했을 경우, 식 (25)에 따라 해당 버티컬도 클릭한 것으로 가정한다. 마지막으로 식 (23), 식 (26)과 같이 특정 버티컬에 속한 문서들은 동일한 문서 인지 확률을 가지는 것으로 가정하였고, 이는 버티컬 내 문서의 랭킹이 문서 인지 확률에는 영향을 미치지 않는 것을 의미한다. 이러한 가정은 일반적인 랭킹 문제의 가정과는 다르나, 버티컬의 위치에 따른 편향성을 고려하고 있기 때문에 해당 가설이 포함되어도 문제가 없다고 판단하였다. 또한 해당 가설을 포함시킴으로써 수식 및 계산의 복잡도를 낮출 수 있다.

본 논문에서는 확률 그래픽 기반의 대표적인 클릭모형인 PBM, UBM, DBN을 버티컬 검색 형태에 알맞게 변형하였으며, 각각의 수식과 파라미터 계산 방법을 다루고자 한다.

3.2 Position-Based Vertical Click Model

버티컬 검색에서의 이벤트들을 토대로 PBM 기반의 버티컬 클릭모형인 position-based vertical click model(PBVCM)을 제안한다. PBVCM의 수식은 다음과 같이 정의하였다.

PCDu=1=PEDu=1•PADu=1 =PEVa=1•PAVa=1•PADu=1

(27)

PADu=1=αuq

(28)

PAVa=1=βaq

(29)

PEVa=1=λr

(30)

버티컬 a가 클릭되기 위해서는 버티컬 a 내에 존재하는 한 개 이상의 문서가 클릭되어야 한다. 따라서 버티컬 내에 존재하는 문서 u의 클릭 여부가 버티컬 a의 클릭 여부에 영향을 주는 방식으로 그래프를 구성하였다. β_aq는 질의 q, 버티컬 a에 대한 매력도, λ_r은 버티컬 a가 등장한 랭크 r에 따른 인지 확률이다. 식 (27)은 식 (2)의 변형으로, 특정 문서가 클릭될 확률은 식 (23), 식 (24)의 가설에 의해 버티컬의 매력도, 버티컬의 인지 확률, 문서의 매력도의 곱으로 표현할 수 있다. <Figure 4>는 PBM 기반의 버티컬 검색 클릭모형을 도식화한 결과를 나타낸다.

Figure 4.
Graphical Representation of the Position-Based Vertical Click Model

세 가지의 파라미터를 추정하기 위하여 expectation-maximization(EM) 알고리즘을 사용한다(Dempster et al., 1977). EM 알고리즘은 확률 그래픽 모델 등 잠재 변수에 의존하는 확률 모델에서 최대가능도(maximum likelihood)를 갖는 파라미터의 추정값을 탐색하는 알고리즘으로, 관측되는 이벤트를 토대로 통계 모델의 수식을 풀 수 없는 경우 사용하는 방법이다. 현재 파라미터에서 파라미터의 가능도 기댓값을 정의하는 expectation 단계와 가능도 기댓값을 최대화하도록 파라미터를 업데이트하는 maximization 단계를 반복적으로 거침으로써, 실제 관측한 클릭 여부 결과에 적합한 파라미터를 찾는 것이다. PBVCM 모델에서 실제로 관측이 가능한 것은 클릭 여부만 존재하는 것에 비해 추정해야 하는 파라미터는 α_uq, β_aq, λ_r세 가지이므로, 해당 파라미터들의 정확한 추정치를 계산할 수 없으므로 EM 알고리즘을 통해 파라미터 업데이트를 수행하고, 이를 통해 파라미터 추정을 진행한다.

Chuklin et al.(2015)에 따르면 상위 이벤트가 존재하지 않는 경우 관측된 이벤트에 따른 추정 대상 파라미터의 조건부 확률의 평균으로 표현이 가능하며, 세 가지 파라미터 모두 상위 이벤트가 존재하지 않으므로 반복시행(iteration) t+1번째의 추정값을 다음과 같이 정리할 수 있다.

αuqt+1=∑p∈RPuqPADu=1C∑p∈RPuq1 =1RPuq∑p∈RPuqPADu=1C

(31)

βaqt+1=1RPaq∑p∈RPaqPAVa=1C

(32)

λrt+1=1RPr∑p∈RPrPEVa=1C

(33)

하나의 검색 결과 p는 검색한 질의 q, 검색 결과를 구성하는 버티컬 a 및 버티컬 내 문서 u, 그리고 버티컬의 랭크 r 정보를 모두 가지고 있다. 따라서 전체 검색 결과 RP는 질의와 문서 RP_uq, 질의와 버티컬 RP_aq, 혹은 버티컬의 랭크 RP_r 별로 부분 집합을 구성하여 확인할 수 있다. 또한 각각의 검색 결과 p 별로 클릭 여부 C를 관측할 수 있으며, 이에 따른 조건부 확률을 계산함으로써 파라미터를 추정한다. 예를 들어, ‘BTS Butter’ 질의에 등장한 공식 뮤직비디오 문서의 매력도는 ‘BTS Butter’를 입력하였을 때 공식 뮤직비디오 문서가 노출된 모든 검색 결과 RP_{공식 뮤직비디오,BTS Butter}를 가져온 후, 해당 검색 결과에서의 공식 뮤직비디오 클릭 여부에 따른 공식 뮤직비디오 문서의 매력도 조건부 확률로 반복적으로 업데이트 함으로써 추정한다.

식 (31)의 문서 매력도 조건부 확률을 전개하면 다음과 같다.

PADu=1C=ICDu=1•PADu=1CDu=1 +ICDu=0•PADu=1CDu=0 =cdu+1-cdu1-cva PCDu=0ADu=1•PADu=1PCDu=0 =cdu+1-cdu1-cva1-λrβaq•αuq1-λrβaqαuq

(34)

cd_u는 각 이벤트에서의 문서 u의 클릭 여부, cv_a는 버티컬 a의 클릭 여부를 의미하며, 1이면 클릭됨, 0이면 클릭되지 않았음을 뜻한다. 만약 문서가 클릭이 되었다면, 식 (24)의 가설에 의해 사용자는 문서가 매력 있다고 판단한 것이므로 매력도는 1이다. 반대로 문서가 클릭되지 않았다면 최소한 버티컬의 매력 여부, 버티컬의 인지 여부, 문서의 매력 여부 셋 중 하나 이상을 충족하지 못했다는 것이고 (P(CD_u = 0) = 1 - λ_rβ_aqα_uq), 이 때 문서가 매력이 있었다면 버티컬이 매력이 없거나 버티컬을 인지하지 못한 것이라 판단할 수 있다(P(CD_u = 0|AD_u = 1) = 1 - λ_rβ_aq). 단, 문서 u는 클릭되지 않았는데 문서 u가 소속되어 있는 버티컬 a가 클릭이 되었다면 (cv_a = 1), 이는 사용자가 문서에 매력을 느끼지 못한 것으로 할 수 있으므로 매력도는 0이다.

같은 방식으로 식 (31), 식 (32), 식 (33)을 다음의 식 (35), 식 (36), 식 (37)과 같이 정리할 수 있다. 식 (36), 식 (37)에서 1-∏u∈a1-αuqt는 버티컬 a에 속하는 모든 문서 u에 대해서 사용자가 매력을 느끼지 못했을 확률을 의미한다. 본 논문에서는 각 파라미터의 초기값 αuq0, βaq0, λr0은 0.1로 설정하였다.

αuqt+1=1RPuq∑p∈RPuqcdus+1-cdus1-cvas 1-λrtβaqt•αuqt1-λrtβaqtαuqt

(35)

βaqt+1=1RPaq∑p∈RPaqcvas+1-cvas 1-λrt1-∏u∈a1-αuqt•βaqt1-λrtβaqtαuqt

(36)

λrt+1=1RPr∑p∈RPrcvas+1-cvas 1-βaqt1-∏u∈a1-αuqt•λrt1-λrtβaqtαuqt

(37)

3.3 User Browsing Vertical Click Model

UBM 기반의 버티컬 클릭모형은 user browsing vertical click model(UBVCM)이라 정의한다. UBM은 PBM에서 문서의 인지 확률을 좀 더 고도화하여 구성한 것으로, 매력도에 대한 부분은 PBM과 동일하다. 따라서 UBVCM의 기본적인 수식은 PBVCM의 식 (27), 식 (28), 식 (29)와 동일하며, 아래의 식 (38)과 같이 버티컬의 인지 확률만 추가적으로 구성하면 된다. 제안하는 UBVCM의 형태는 <Figure 5>에서 확인할 수 있다.

PEVa=1CV1=cv1,…,CVr-1=cvr-1=λrr' r'=maxk∈0,…,r-1∶cvk=1

(38)

Figure 5.
Graphical Representation of the User Browsing Vertical Click Model

동일한 방식으로, UBVCM에서의 문서의 매력도와 버티컬의 매력도는 PBVCM에서의 추정치 식 (31), 식 (32)로 추정이 가능하다. 단, 버티컬의 인지 확률은 다르게 추정해야 하는데, 각각의 검색 결과를 추정 대상 버티컬의 랭크 r과 마지막으로 클릭한 버티컬의 랭크 r^ʹ 두 가지를 모두 사용하여 구성함으로써 상위 이벤트가 없는 형태로 단순화할 수 있다(Chuklin et al., 2015). 단순화된 인지 확률은 λrr'이며, 이는 마지막으로 클릭된 버티컬의 랭크가 r^ʹ일 때 랭크가 r인 버티컬의 인지 확률이다. 따라서 반복시행(iteration) t+1번째의 버티컬 인지 확률 추정값은 다음과 같이 정리할 수 있다.

λrr't+1=1RPrr'∑p∈RPrr'PEVa=1C

(39)

UBVCM의 버티컬 인지 확률 추정값 식 (33)을 토대로 UBVCM에서의 모든 파라미터의 추정값 수식을 정리하면 식 (40), 식 (41), 식 (42)와 같다. 각 파라미터의 초기값 αuq0, βaq0, λrr'0은 PBVCM과 동일하게 0.1로 설정하였다.

αuqt+1=1RPuq∑p∈RPuqcdus+1-cdus1-cvas 1-λrr'tβaqt•αuqt1-λrr'tβaqtαuqt

(40)

βaqt+1=1RPaq∑p∈RPaqcvas+1-cvas 1-λrr't1-∏u∈a1-αuqt•βaqt1-λrr'tβaqtαuqt

(41)

λrr't+1=1RPrr'∑p∈RPrr'cvas+1-cvas 1-βaqt1-∏u∈a1-αuqt•λrr't1-λrr'tβaqtαuqt

(42)

3.4 Dynamic Bayesian Network Vertical Click Model

버티컬 검색에서의 DBN은 UBVCM과는 다르게 식 (27)의 기본 가설, 식 (29)의 버티컬 매력도를 제외한 나머지는 기존 DBN을 토대로 구성해야 한다. 본 논문에서는 이를 dynamic Bayesian network vertical click model(DBNVCM)이라 명칭하며, 아래와 같이 정의하였다.

PEV1=1=1

(43)

PEVr=1EVr-1=0=0

(44)

PSVa=1CVa=1=σaq

(45)

PEVr=1SVr-1=1=0

(46)

PEVr=1EVr-1=1,SVr-1=0=τ

(47)

사용자는 검색 결과에 있는 버티컬을 랭킹 순서대로 확인하며, 식 (9)를 토대로 특정 버티컬을 인지하였다면 그보다 상단에 있는 모든 버티컬들은 인지한 것으로 가정한다. 또한 사용자의 조회 후 만족도 σ_aq는 식 (10)을 차용하여 버티컬에 대해서만 계산하도록 하였으며, 만약 만족하지 못하였을 경우 다음 버티컬 확인으로 이어질 확률을 식 (12)을 참고하여τ 로 구성하였다. DBNVCM 클릭모형을 도식화한 결과는 <Figure 6>과 같다.

Figure 6.
Graphical Representation of the Dynamic Bayesian Network Vertical Click Model

DBNVCM의 버티컬 매력도 및 문서 매력도 추정은 PBVCM, UBVCM과 동일한 방식으로 식 (31), 식 (32)를 이용하여 추정이 가능하나, 버티컬의 인지 확률은 PBVCM, UBVCM과는 다르게 발생한 이벤트들을 토대로 추정해야 한다. DBNVCM의 인지 확률 λ를 정리하면 다음과 같다.

λ1=PEV1=1=1λr+1=PEVr+1=1 =PEVr=1•PEVr+1=1EVr=1 =λr•PEVr+1=1SVr=0,EVr=1 •PSVr=0EVr=1 =λrτ•PSVr=0CVr=1,EVr=1 •PCVr=1EVr=1 +PSVr=0CVr=0,EVr=1 •PCVr=0EVr=1 =λr•1-σaqβaq1-∏u∈a1-αuq +1-βaq1-∏u∈a1-αuq

(48)

또한 DBNVCM의 가장 큰 특징은 계산 대상인 버티컬 및 문서 결과만 취합하여 계산하는 것이 아니라 현재 버티컬 하단에 존재하는 버티컬 및 문서의 클릭 여부에 따라서도 추정값이 달라진다는 것이다. 예를 들어, 특정 버티컬 a 보다 하단에 있는 버티컬이 클릭되었을 경우에는 식 (44)에 의해 버티컬 a는 사용자가 인지했다는 것을 알 수 있고, 이 때 버티컬 a가 클릭되지 않았다면 버티컬 a가 매력이 없거나 버티컬 a 내에 포함되어 있는 모든 문서가 매력이 없는 것으로 유추할 수 있다. 따라서, 파라미터를 추정할 때 클릭 여부 C는 현재 버티컬의 클릭 여부 CV_a 혹은 문서의 클릭 여부 CD_u, 그리고 검색 결과 하단에 존재하는 버티컬의 클릭 여부 CV_>r 두 가지로 나누어 해석해야 한다.

버티컬 매력 여부의 클릭 여부에 따른 조건부 확률을 먼저 정리하면 다음과 같다. U는 버티컬 a 안에 포함되어 있는 모든 문서를 의미한다.

PAVa=1C=PAVa=1CVa, CV>r =cva+1-cva1-cv>r PCVa=0,CV>r=0AVa=1•PAVa=1PCVa=0,CV>r=0

(49)

PCVa=0,CV>r=0AVa=1 =PEVr=0•PCVa=0,CV>r=0AVa=1,EVr=0 +PEVr=1•PCVa=0,CV>r=0AVa=1,EVr=1 =PEVr=0+PEVr=1 •PCVa=0,CV>r=0AVa=1,EVr=1,ADU=0 •PADU=0=1-λr+λr∏u∈a1-αuq 1-Xr1-βaq1-∏u∈a1-αuq

(50)

Xr=PCV≥r=1EVr=1=PCVr=1EVr=1 +PCVr=0,CV≥r+1=1EVr=1 =PCVr=1EVr=1 +PCVr=0EVr=1•PCV≥r+1=1EVr+1=1 •PEVr+1=1CVr=0,EVr=1 =βaq1-∏u1-αuq+1-βaq1-∏u1-αuqτXr+1

(51)

문서 매력 여부의 조건부 확률도 같은 방법으로 유도할 수 있다. 이는 다음의 수식으로 정리된다.

PADu=1C=PADu=1CDu,CV>r =cdu+1-cducc>rαuq1-βaq+1-cc>r• PCDu=0,CV>r=0ADu=1•PADu=1PCDu=0,CV>r=0

(52)

PCDu=0,CV>r=0ADu=1 =PEVr=0 •PCDu=0,CV>r=0ADu=1,EVr=0 +PEVr=1•PCDu=0,CV>r=0ADu=1,EVr=1 =PEVr=0+PEVr=1 •PCDu=0,CV>r=0ADu=1,EVr=1,AVa=0 •PAVa=0 =1-λr+λr1-βaq1-Xr1-βaq1-∏u∈a1-αuq

(53)

PCDu=0,CV>r=0 =PCV≥r=0PCDU╲u=0CDu=0,CV>r=0

(54)

PCDU╲u=0CDu=0,CV>r=0 =PCDU╲u=0CDu=0,CV>r=0,EVr=0•PEVr=0 +PCDU╲u=0CDu=0,CV>r=0,EVr=1•PEVr=1 =1-λr+λr1-βaq1-∏u'∈a╲u1-αu'q

(55)

마지막으로, 버티컬의 만족도 σ_aq 또한 식 (31), 식 (32) 와 동일한 방식으로 추정할 수 있다.

PSVa=1C=PSVa=1CVa=1,CV>r =ICV>r=1•PSVa=1CVa=1,CV>r=1 +ICV>r=0•PSVa=1CVa=1,CV>r=0 =1-cv>r PCV>r=0SVa=1,CV=1•PSVa=1CVa=1PCV>r=0CVa=1 =1-cv>rσaqPCV>r=0CVa=1

(56)

PCV>r=0CVa=1=1-PCV≥r+1=1CVa=1 =1-PCV≥r+1=1EVr+1=1•PEVr+1=1CVa=1 =1-Xr+11-σaqτ

(57)

식 (49)의 클릭 여부에 따른 버티컬 매력 여부 조건부 확률, 식 (52)의 문서 매력 여부 조건부 확률, 식 (56)의 버티컬 만족 여부 조건부 확률 수식을 토대로 전체 검색 결과에 대한 평균값을 구함으로써 반복시행 t+1번째의 버티컬의 매력도, 문서의 매력도, 버티컬의 만족도를 계산할 수 있으며, 최종적으로 계산된 버티컬의 매력도는 버티컬의 위치나 다른 버티컬, 문서들의 매력도에 따른 편향성이 제거된 버티컬의 비편향적 클릭 확률이다.

4. 실험

제안하는 클릭모형 및 비교 대상 클릭모형 결과를 질의-버티컬 별 적합도 평가 결과와 조합하여 지표를 계산하고 비교하였다. 이 장에서는 비교 대상 클릭모형, 모델 비교를 위해 사용한 데이터, 그리고 NDCG에 대해서 설명한다. 제안하는 클릭모형과 비교 대상 클릭모형은 스파크 분산처리 플랫폼(Zaharia et al., 2010)과 스칼라(Odersky et al., 2014)를 이용하여 직접 구현하였다.

4.1 비교 대상 클릭모형

제안하는 클릭모형과 비교할 비교 대상 클릭모형은 PBM, UBM, DBN이다. 단, PBM, UBM, DBN은 버티컬을 고려하지 않으므로, 각각의 클릭모형은 검색 결과 내에 포함되어 있는 버티컬을 무시하고 단순히 문서들의 순서만을 이용하여 모델링하였다. 따라서 파라미터는 검색 결과에 표시되는 문서의 매력도, 그리고 문서 랭킹에 따른 인지 확률 등으로 구성된다. 단, 제안하는 클릭모형과 비교하기 위하여, 최종적으로 계산된 문서의 매력도를 사용하여 버티컬 별로 평균을 계산하였다. 특정 질의 내에서의 문서-버티컬 매핑은 실험 데이터 상 가장 마지막으로 등장했던 질의의 검색 결과를 이용하였다.

PBM, UBM, DBN 세 가지 클릭모형 모두 직접 구현하여 파라미터를 추정하였고, 각각의 방법 별로 어떤 결과가 나오는지, 그리고 제안하는 클릭모형과의 차이가 어느 정도인지 비교하였다.

4.2 데이터

검색 결과 데이터는 2020년 4월 1일부터 5월 3일까지의 국내 포털 기업의 모바일 실서비스 클릭, 노출 로그를 사용하였다. 여기에는 사용자가 어떤 질의를 검색하였고, 이 때 어떤 버티컬 및 문서가 등장하였는지를 버티컬 및 문서의 id 값을 통해 알 수 있으며, 해당 id 값을 토대로 사용자가 검색 결과를 클릭하였는지에 대한 정보를 알 수 있다. 클릭, 노출 로그를 실험에 맞게 전처리한 데이터는 <Table 1>과 같은 형태로 구성되어 있다. 이 때, Rank는 버티컬 내에서의 문서의 랭크를 의미한다.

Table 1.
Example of the Preprocessed Click / Impression Log Dataset

Query	Page ID	Vertical ID	Document ID	Vertical Rank	Rank	Clicked
bts	p₁	N29	d₁	1	1	1
bts	p₁	web	d₂	2	1	0
bts	p₁	web	d₃	2	2	0
…	…	…	…	…	…	…
bts	p₂	N29	d₁	1	1	0
bts	p₂	Na8	d₄	2	1	1
…	…	…	…	…	…	…
google	p₃	web	d₅	1	1	1
google	p₃	web	d₆	1	2	0
google	p₃	web	d₇	1	3	0
google	p₃	nws	d₈	2	1	1
…	…	…	…	…	…	…

실서비스에는 상당한 양의 클릭, 노출 로그가 누적이 되기 때문에 클릭모형의 학습 진행 시 EM 알고리즘은 1일치 데이터를 24등분 후 배치(batch) 학습을 진행하였고, 에포크(epoch)는 2회로 제한하였다. 이러한 방식으로 각 날짜 별로 파라미터를 학습시키고 학습된 값을 누적하였다.

학습된 각각의 클릭모형의 품질을 확인하기 위하여 국내 포털 기업 전문가에 의해 직접 평가된 질의-버티컬 별 평가 결과를 확보하였다. 평가는 5점 척도로 진행하였으며, 5점은 검색 결과 최상단 노출이 필요한 정답 버티컬, 1점은 검색 의도와 전혀 관련이 없는 버티컬임을 의미한다. 또한 시간이 지남에 따른 검색 결과 변동 및 문서의 변질을 막기 위하여, 평가는 2020년 5월 3일을 기준으로 보존된 검색 결과를 토대로 진행하였다.

최종적으로 학습된 클릭모형에서의 질의-버티컬 별 매력도와 질의-버티컬 별 평가 결과를 합쳐서 지표를 추출하였으며, 평가에 사용한 데이터의 양은 질의 2,167개, 질의-버티컬 13,588개이다.

4.3 Normalized Discounted Cumulative Gain

NDCG는 평가 결과나 특정한 논리에 의해 구성된 적합도 등을 이용하여 검색 품질을 나타내는 데에 사용하는 가장 대표적인 지표이다(Järvelin and Kekäläinen, 2002). Discounted cumulative gain(DCG)는 검색 결과 상위 k개의 적합도 점수를 더한 cumulative gain(CG) 값을 랭킹에 따라 페널티를 준 것으로, 수식은 다음과 같다. 본 논문에서는 버티컬에 대한 랭킹 결과를 평가하므로, rel_i는 i번째 버티컬의 적합도 점수이다.

DCG@k=∑i=1k2rel i-1log2i+1

해당 값을 적합도의 역순으로 배치했을 때의 DCG값과 비교한 것이 NDCG로, 가장 이상적으로 검색 결과를 배치했을 때와 비교하여 어느 수준으로 랭킹을 하였는지를 직관적으로 알 수 있다. 수식은 다음과 같이 정의된다. REL_k는 버티컬을 이상적으로 배치한 후 상위 k개 까지의 버티컬을 뽑은 리스트이다.

NDCG@k=DCG@kIDCG@k,IDCG@k=∑i=1RELk2rel i-1log2i+1

만약 NDCG를 계산하고자 하는 검색 결과가 이상적으로 랭킹되었다면, DCG@k는 IDCG@k와 같은 값이므로 1이다. 반면, 정반대로 랭킹되었을 경우는 적합도 점수가 높은 버티컬이 랭킹 순서에 따른 페널티를 받게 되므로 0에 근접하게 된다. 또한, NDCG@k는 랭킹에서 k번째 버티컬까지의 NDCG 값이므로, 예를 들어 NDCG@3은 3등까지의 버티컬 즉, 랭킹 결과 상단에서의 랭킹 품질을 의미한다. 상황에 따라 차이가 있으나 5점 척도로 진행 시 NDCG@1 기준으로 0.7 정도를 적절한 수준으로 판단하며, 일반적으로는 NDCG 결과 간 상대적인 차이를 토대로 랭킹 결과를 평가한다.

5. 실험 결과

<Table 2>는 본 연구에서 제안하는 클릭모형과 비교 대상 클릭모형의 NDCG@1, 3, 5 성능을 나타낸다. 각 방식 별 성능과 제안 클릭모형과 기존 클릭모형 각각의 평균을 계산하여 비교하였으며, 질의 별 NDCG 결과를 이용하여 대응표본 t-검정으로 유의성을 확인하였다. 모든 NDCG 구간에서 제안 클릭모형인 DBNVCM이 가장 우수한 성능을 보이는 것을 알 수 있었으며, PBVCM, UBVCM, DBNVCM 모두 각각의 클릭모형의 원형인 PBM, UBM, DBN보다 우수함을 보였다. 특히 NDCG@3, 5에서는 모든 클릭모형에서 통계적으로 유의한 차이를 보였으며, UBVCM의 NDCG@1(p-value: 0.1066), DBNVCM의 NDCG@1 (p-value: 0.0891) 에서도 유의하지는 않으나 이에 준하는 차이를 보임을 알 수 있었다. 세 가지 클릭모형 모두 NDCG@1, 3까지는 비교 대상 클릭모형과 제안하는 클릭모형 간의 평균 성능 차이가 증가하는 것을 알 수 있는데, 이는 제안하는 클릭모형이 사용자가 특정 질의에서 가장 원하는 버티컬, 혹은 적어도 상단에 배치해야 하는 버티컬을 잘 탐지하여 표시해줄 수 있다는 의미이다. 따라서 제안하는 클릭모형을 실제 서비스에 적용할 경우에도 비교 대상 클릭모형에 비해 사용자의 검색 만족도를 보다 향상시킬 수 있을 것으로 기대된다.

Table 2.
Performance Comparison between the Existing and Proposed Click Models in Terms of NDCG@1, NDCG@3, NDCG@5 with Significance Test (^*p<0.01, ^**p<0.001)

Click model	NDCG@1	NDCG@3	NDCG@5
PBM (existing)	0.7575	0.8146	0.8628
PBVCM (proposed)	0.7711^*	0.8356^**	0.8812^**
UBM (existing)	0.7583	0.8171	0.8642
UBVCM (proposed)	0.7652	0.8349^**	0.8810^**
DBN (existing)	0.8148	0.8525	0.8939
DBNVCM (proposed)	0.8215	0.8597^*	0.9007^**

6. 결 론

본 논문에서는 버티컬 검색 형태에 적합한 확률 그래픽 기반의 새로운 클릭모형을 제안하였다. 제안 방법을 이용하여 버티컬의 비편향적 클릭 확률을 추출하였고, 추출된 클릭 확률이 사용자의 선호도에 맞게 추출되었는지 확인하기 위하여 NDCG를 사용하여 평가하였다. 그 결과, 제안하는 클릭모형은 기존의 클릭모형을 단순하게 적용하였을 때와 비교하여 사용자가 가장 원하는 버티컬, 그리고 검색 결과 상단에 배치해야 하는 버티컬을 잘 탐지하고 제시하는 것을 확인하였다.

본 연구는 검색 결과에서의 버티컬에 대한 사용자 피드백 기반 적합성을 클릭모형 구조를 고도화하여 계산하도록 한 첫 연구라는 점에서 의의가 있다. 제안하는 클릭모형에 대한 결과를 실제 검색 서비스에 반영할 경우 버티컬 검색 성능 향상에 기여를 할 것으로 예상되며, 실서비스 적용 후 심층적인 결과 분석을 통해 클릭모형의 추가적인 고도화도 가능할 것으로 기대된다. 또한, 본 연구에서는 인공신경망 클릭모형에 대해서는 다루지 않았으나(Borisov et al., 2016), 만약 제안하는 클릭모형의 구조를 인공신경망을 기반으로 하는 클릭모형에도 반영이 가능하다면 현재보다 더 개선된 결과를 획득할 수 있을 것으로 본다.

References


1.	Arguello, J., Diaz, F., Callan, J., and Crespo, J. F. (2009), Sources of Evidence for Vertical Selection, In Proceedings of the 32nd International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR’09), ACM, New York, NY, United States, 315-322.
2.	Arguello, J., Diaz, F., and Paiement, J. F. (2010), Vertical Selection in the Presence of Unlabeled Verticals, In Proceedings of the 33rd International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR’10), ACM, New York, NY, United States, 691-698.
3.	Borisov, A., Markov, I., de Rijke, M., and Serdyukov, P. (2016), A Neural Click Model for Web Search, In Proceedings of the 25th International Conference on World Wide Web (WWW’16), International World Wide Web Conferences Steering Committee, Republic and Canton of Geneva, Switzerland, 531-541.
4.	Chapelle, O., and Zhang, Y. (2009), A Dynamic Bayesian Network Click Model for Web Search Ranking, In Proceedings of the 18th International Conference on World Wide Web (WWW’09), ACM, New York, NY, United States, 1-10.
5.	Chen, D., Chen, W., Wang, H., Chen, Z., and Yang, Q. (2012), Beyond Ten Blue Links: Enabling User Click Modeling in Federated Web Search, In Proceedings of the Fifth ACM International Conference on Web Search and Data Mining (WSDM’12), ACM, New York, NY, United States, 463-472.
6.	Chuklin, A., Serdyukov, P., and de Rijke, M. (2013), Using Intent Information to Model User Behavior in Diversified Search, In European Conference on Information Retrieval, Springer, Berlin, Heidelberg, 1-13.
7.	Chuklin, A., Markov, I., and de Rijke, M. (2015), Click Models for Web Search, Synthesis Lectures on Information Concepts, Retrieval, and Services, 7(3), 1-115.
8.	Craswell, N., Zoeter, O., Taylor, M., and Ramsey, B. (2008), An Experimental Comparison of Click Position-Bias Models, In Proceedings of the 2008 International Conference on Web Search and Data Mining (WSDM’08), ACM, New York, NY, United States, 87-94.
9.	Dempster, A. P., Laird, N. M., and Rubin, D. B. (1977), Maximum Likelihood from Incomplete Data via the EM Algorithm, Journal of the Royal Statistical Society: Series B (Methodological), 39(1), 1-22.
*10.*	Diaz, F. (2009), Integration of News Content into Web Results, In Proceedings of the Second ACM International Conference on Web Search and Data Mining (WSDM’09), ACM, New York, NY, United States, 182-191.
*11.*	Diaz, F., and Arguello, J. (2009), Adaptation of Offline Vertical Selection Predictions in the Presence of User Feedback, In Proceedings of the 32nd International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR’09), ACM, New York, NY, United States, 323-330.
*12.*	Dumais, S., Cutrell, E., and Chen, H. (2001), Optimizing Search by Showing Results in Context, In Proceedings of the SIGCHI Conference on Human Factors in Computing Systems (CHI’06), ACM, New York, NY, United States, 277-284.
*13.*	Dupret, G. E. and Piwowarski, B. (2008), A User Browsing Model to Predict Search Engine Click Data from Past Observations, In Proceedings of the 31st International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR’08), ACM, New York, NY, United States, 331-338.
*14.*	Järvelin, K. and Kekäläinen, J. (2002), Cumulated Gain-Based Evaluation of IR Techniques, ACM Transactions on Information Systems, 20(4), 422-446.
*15.*	Joachims, T., Granka, L., Pan, B., Hembrooke, H., Radlinski, F., and Gay, G. (2007), Evaluating the Accuracy of Implicit Feedback from Clicks and Query Reformulations in Web Search, ACM Transactions on Information Systems, 25(2), 7-es.
*16.*	Koller, D., and Friedman, N. (2009), Probabilistic Graphical Models: Principles and Techniques, MIT press.
*17.*	Markov, I., Kharitonov, E., Nikulin, V., Serdyukov, P., de Rijke, M., and Crestani, F. (2014), Vertical-Aware Click Model-Based Effectiveness Metrics, In Proceedings of the 23rd ACM International Conference on Information and Knowledge Management (CIKM’14), ACM, New York, NY, United States, 1867-1870.
*18.*	Odersky, M., Altherr, P., Cremet, V., Emir, B., Micheloud, S., Mihaylov, N., Moors, A., Rytz, L., Schinz, M., Stenman, E., and Zenger, M. (2014), The Scala Language Specification Version 2.11, Technical Report, EPFL Lausanne, Switzerland, Available Online https://www.scala-lang.org/files/archive/spec/2.11/.
*19.*	Wang, C., Liu, Y., Zhang, M., Ma, S., Zheng, M., Qian, J., and Zhang, K (2013), Incorporating Vertical Results into Search Click Models, In Proceedings of the 36th International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR’13), ACM, New York, NY, United States, 503-512.
*20.*	Zaharia, M., Chowdhury, M., Franklin, M. J., Shenker, S., and Stoica, I. (2010), Spark: Cluster Computing with Working Sets, HotCloud, 10(10-10), 95.
*21.*	Zhou, K., Cummins, R., Lalmas, M., and Jose, J. M. (2013), Which Vertical Search Engines are Relevant?, In Proceedings of the 22nd International Conference on World Wide Web (WWW’13), ACM, New York, NY, United States, 1557-1568.

저자소개

최우식 : 고려대학교 산업경영공학과에서 2014년 학사 취득, 2018년에 석박통합과정을 수료하였으며, 현재 네이버 AiRSearch에 재직 중이다. 연구분야는 버티컬 검색과 검색에서의 사용자 행동 분석이다.

김성범 : 고려대학교 산업경영공학부 교수로 2009년부터 재직하고 있으며, 인공지능공학연구소 소장 및 기업산학연협력센터 센터장을 맡고 있다. 미국 텍사스주립대학교 산업공학과 교수를 역임하였으며, 한양대학교 산업공학과에서 학사학위를 미국 Georgia Institute of Technology에서 산업공학 석사 및 박사학위를 취득하였다. 연구 분야는 인공지능, 머신러닝, 최적화이다.

Copyright © The Korean Institute of Industrial Engineers. All rights reserved.
# 2006, Jungang Royal,13 Seoun-ro, Seocho-gu, Seoul, Republic of Korea (06732)
Tel: +82-2-523-3096 | Fax: +82-2-523-3090 | E-mail: journal@kiie.org

JKIIE

Journal of the Korean Institute of Industrial Engineers

MENU

About the Journal