Current Issue

Journal of the Korean Institute of Industrial Engineers - Vol. 50 , No. 2

[ Article ]
Journal of the Korean Institute of Industrial Engineers - Vol. 50, No. 2, pp. 75-82
Abbreviation: JKIIE
ISSN: 1225-0988 (Print) 2234-6457 (Online)
Print publication date 15 Apr 2024
Received 02 Jan 2024 Accepted 02 Feb 2024
DOI: https://doi.org/10.7232/JKIIE.2024.50.2.075

피실험자 변동에 강건한 인간 활동 인식을 위한 협력 학습 활용 도메인 일반화
정용태 ; 김성범
고려대학교 산업경영공학과

COLDOG: Human Activity Recognition through Collaborative Learning for Domain Generalization
Yongtae Jeong ; Seoung Bum Kim
Department of Industrial and Management Engineering, Korea University
Correspondence to : 김성범 교수, 02841, 서울특별시 성북구 안암로 145 고려대학교 산업경영공학부, Tel : 02-3290-3397, Fax : 02-929-5888, E-mail : sbkim1@korea.ac.kr


© 2024 KIIE

Abstract

Human activity recognition (HAR) is a rapidly advancing field that uses wearable sensors and devices, such as smartphones, to detect and classify user activities. Despite remarkable growth, HAR models encounter challenges in generalizing to new users because of variations in user characteristics. Transfer learning and domain adaptation have been studied to address this issue, but they rely on the availability of target data. This study presents a collaborative learning for domain generalization (COLDOG) to enhance generalization performance in HAR. COLDOG improves the generalization performance of domain-specific models through collaborative learning and achieves high performance for new users through ensemble of all models. We validate the effectiveness of the proposed method through experiments on various HAR benchmark datasets.


Keywords: Human Activity Recognition, Domain Generalization, Collaborative Learning

1. 서 론

최근 센서 기술과 컴퓨팅 기술의 발전으로 인간 활동 인식(human activity recognition, HAR) 분야는 급속한 성장을 거듭하고 있다. 해당 분야는 착용형 센서나 스마트폰과 같은 기기를 통해 수집된 데이터를 활용하여 사용자의 다양한 활동을 자동으로 감지하고 분류하는 것을 목표로 한다(Dillon et al., 2014). 인간 활동 인식은 헬스케어 분야에서 환자의 건강 상태를 모니터링하고, 스포츠 분야에서는 운동 성과를 분석하고 개선하는데 사용되며, 게임 산업에서는 사용자의 동작을 인식하여 게임 캐릭터를 제어하는데 활용된다(Bulling et al., 2014).

인간 활동 인식 모델은 많은 연구가 이루어지고 있지만 여전히 해결해야 할 과제가 많다. 그 중에서도 가장 중요한 과제 중 하나는 모델의 일반화 성능을 향상시키는 것이다. 다시 말해, 훈련된 모델이 이전에 보지 못한 새로운 데이터가 들어와도 만족할 만한 수준의 성능을 유지하는 것이 중요하다. 실제로 인간 활동 인식 센서 신호 데이터는 사용자의 다양한 특성에 영향을 받기 쉽다. 예를 들어, 사용자 연령, 행동 습관, 또는 체형 등이 특성에 포함될 수 있다. <Figure 1>과 같이 동일한 행동에 대해 여러 피실험자로부터 수집된 센서 신호 데이터는 각 피실험자의 특성에 따라 변동된다. 따라서, 훈련 데이터에 등장하지 않은 새로운 사용자에 대한 시험을 수행할 때 모델의 성능이 감소할 가능성이 높다. 이러한 문제는 훈련 및 시험 데이터가 독립적이지 않고 분포가 동일하지 않다는 특성으로 인한 도메인 변화에 기인한다(Soleimani et al., 2021).


Figure 1. 
Distribution Shift Problems in HAR. Different Sensor Readings are Collected from Different Subjects

이러한 도메인 변화 문제를 해결하기 위하여 전이학습(transfer learning) 및 도메인 적응(domain adaptation) 방법론(Cook et al., 2013; Pan et al., 2009)이 연구되어 왔다. 전이 학습은 소스 데이터셋으로 모델을 사전 학습하고, 타겟 데이터셋을 통해서 모델을 미세 조정하는 방법이다. 즉, 기존 사용자 데이터를 통해 모델을 사전 학습하고, 새로운 사용자 데이터에 대해서 미세 조정을 진행한다. 도메인 적응은 소스 데이터셋과 타겟 데이터셋 간 분포차이를 최소화 하도록 학습하여, 각 도메인에 강건한 특징을 추출하는 모델을 학습하는 방법이다. 즉, 기존 사용자 데이터와 새로운 사용자 데이터의 분포가 유사해지도록 특징을 추출하는 모델을 학습하는 방법이다(Chang et al., 2020; Khan et al., 2018).

하지만 전이학습과 도메인 적응 방법론은 현실문제를 해결하는데 제약사항이 존재한다. 두 방법론 모두 모델 학습 시 타겟 데이터를 사용한다. 즉, 새로운 사용자 데이터를 사용해야 한다. 하지만 현실에서 새로운 사용자의 데이터를 충분히 수집하는 것은 쉽지 않으며, 사용자에 따라 개별적인 모델을 구성하는 것은 비효율적이다. 따라서, 새로운 사용자 데이터가 확보되지 않은 상황에서 일반화 성능이 높은 모델을 구성하는 것은 매우 중요하다.

도메인 일반화(domain generalization)는 타겟 데이터가 없는 상황에서 문제를 해결할 수 있는 방법론으로 최근 주목받는 연구 분야 중 하나이다(Wang et al., 2022). 도메인 일반화 방법론의 목적은 다양한 도메인에서 얻은 데이터를 활용하여 알려지지 않은 새로운 도메인에 대한 일반화 능력을 갖춘 모델을 구축하는데 있다. 도메인 일반화는 데이터 조작(data manipulation), 표현학습(representation learning), 학습전략(learning strategy)을 주제로 활발히 연구되고 있다. 해당 방법론은 컴퓨터 비전 분야를 중심으로 많은 연구가 수행되고 있지만, 웨어러블 센서를 기반으로 수집된 인간 활동 인식 센서 신호 데이터에 대한 연구는 부족한 상황이다.

본 연구는 협력 학습(collaborative learning; Song et al., 2018)을 학습전략으로 사용하여 인간 활동 인식의 일반화 성능을 높이는 것을 목적으로 한다. 제안하는 방법론은 도메인에 특화된 모델들의 협력 학습을 통해 각각의 일반화 성능을 높이고, 모든 모델들의 앙상블을 통해 새로운 사용자에 대한 일반화 성능을 향상시킨다. 이때, 각각의 도메인 데이터로 해당 도메인에 특화된 모델을 학습하고, 전문가(expert) 모델로 정의한다. 이후 특정 도메인에 대한 전문가 모델을 다른 도메인들에 대한 비 전문가(non-expert) 모델로 정의한다. 협력 학습에서는 우수한 전문가 모델의 예측 결과를 가상의 타겟 데이터로 활용하여 비 전문가 모델의 학습을 진행한다. 이에 각 모델은 하나의 도메인 데이터만 학습에 사용하지만, 다양한 도메인 데이터에 대한 관점을 학습할 수 있다. 따라서 학습된 모델들의 앙상블은 새로운 도메인 데이터에 대해 높은 일반화 성능을 보일 것으로 기대한다. 본 논문의 주요 기여점은 다음과 같다:

  • ∙본 논문의 제안 방법론은 추가적인 데이터를 확보하지 않고도 새로운 사용자 데이터에 대해 높은 일반화 성능을 보이는 도메인 일반화 모델을 구성하여 인간 활동 인식 분야의 문제를 해결한다.
  • ∙본 논문은 모델의 학습전략에 협력학습을 적용하는 도메인 일반화 프레임워크를 인간 활동 인식 분야에 최초로 제안한다.
  • ∙본 논문은 제안 방법론의 유효성을 검증하기 위해 다양한 인간 활동 인식 벤치마크 데이터셋을 사용하였으며, 실험 결과, 제안하고 있는 협력 학습을 통한 도메인 일반화 프레임워크가 비교방법론 대비 우수한 성능을 보인다.

2. 배경 방법론

인간 활동 인식은 수집된 데이터를 사용하여 일상 생활에서 발생하는 다양한 활동을 분류하는 것을 목적으로 한다(Ravi et al., 2005). 최근 센서기술의 발전으로 인하여, 착용형 센서나 스마트폰과 같은 기계 장치들을 이용하여 일상 생활에서의 활동 데이터를 수집하는 것이 용이해졌다. 센서 기반 인간 활동 인식을 분석하기 위해 많은 기계 학습 기반 방법이 제안되었으며, 딥러닝 기술의 발전으로 성능이 크게 향상되었다. 그러나, 기존 방법들은 일반적으로 훈련 데이터와 시험 데이터가 독립적이고 동일한 분포를 갖는다는 가정에 기반한다. 다시 말해, 훈련 데이터와 시험 데이터의 분포가 다른 경우에는 성능 저하가 일어날 수 있다(Soleimani et al., 2021). 실제로 인간 행동 인식 센서 신호 데이터는 피실험자의 특성에 따라 데이터에 분포 차이가 발생한다.

도메인 일반화에 관한 연구 주제로는 데이터 조작, 표현 학습, 학습전략 등이 있다. 데이터 조작은 데이터 증강, 노이즈 추가, 데이터 생성 등의 기법을 포함하며, 기존 데이터를 변형하여 모델이 다양한 환경에서 강건하게 수행되도록 한다. 표현 학습은 독립적인 도메인 간 특성과 특화된 도메인 내 특징을 분리하여 학습하고, 도메인 간 독립적인 특성을 통해서 일반화 성능을 향상시킨다. 학습전략은 모델 학습 과정에 대한 연구를 통하여 도메인 일반화 성능을 향상시킨다.

협력 학습은 동일한 네트워크로 구성된 다수의 분류기를 동시에 학습하여, 일반화 성능을 향상시키고 레이블 노이즈에 대한 강건성을 높이는 것을 목적으로 한다. 해당 방법은 보조 훈련(auxiliary training), 멀티 태스크 학습(multitask learning), 지식 증류(knowledge distillation)의 장점을 결합하여 동일한 데이터에 대해 다양한 관점을 학습하여 일반화 성능을 향상시킨다. 본 연구에서는 각 도메인별 특화된 분류기를 학습하는 협력 학습을 진행한다. 각 도메인의 데이터는 해당 도메인에 특화된 전문가 모델을 학습하는데 사용하고 이를 비 전문가 모델 학습에 도움을 주면서 일반화 성능을 향상시키고자 한다.


3. 제안 방법론

본 연구에서는 레이블 정보를 갖는 K개의 소스 도메인(Ds = {D1, D2, ..., DK})이 존재 할 때 수집된 데이터가 전혀 없는 타겟 도메인에 대해서 우수한 성능을 내고자 하는 도메인 일반화 상황을 가정한다. 이때 각 소스 도메인 Dsk=xik,yiki=1nk 데이터는, xikRd, d차원 샘플 데이터로 구성되며, yik1,2,,C, C개 레이블을 갖는 nk개 데이터로 구성된다. 또한 타겟 도메인 Dt=xi,yii=1nt 데이터는 수집되지 않은 상황이다. 도메인 일반화 문제 상황에서 각 도메인 데이터는 서로 다른 확률분포를 갖는다. 즉, 각 확률분포는 PDsixPDsjxPDtx, 1ijK이다. 이러한 상황에서 각 소스 도메인 데이터만을 사용하여 타겟 도메인의 오차를 최소화 하는 것이 도메인 일반화의 핵심 목표라고 하겠다.

본 연구에서는 다중 분류기 모델을 협력 학습을 통해서 학습하였다. K개의 소스 도메인 Dsii=1K에 대해 학습한 각 분류기를 K개의 전문가 모델 Eii=1K로 정의한다. 즉, k번째 소스 도메인 Dsk에 특화된 분류기를 해당 도메인 전문가 모델 Ek라 한다. 이때 EkDsk 이외 도메인 Dsjjk에 대해서는 비 전문가 모델이 된다. 이와 같이 학습된 모델은 이후 앙상블을 통해 예측을 수행한다. 즉, 새로운 데이터는 pyx=1Ki=1KEi의 예측 확률을 갖는다.

다중 분류기 모델은 합성곱 신경망(convolutional neural network)을 공통의 특징 추출기로 사용하며, 도메인별 분류기를 통해서 각 도메인의 특징을 학습한다. 본 연구에서는 분류기들의 일반화 성능 향상을 위하여 협력 학습을 사용한다. 이는 각 도메인의 전문가 모델을 통해 비전문가 모델의 앙상블 효과를 강화하는 것이 주요 특징이다. 각 도메인 전문가 모델의 예측 값을 가상 레이블(pseudo label)로 하여, 비전문가 모델의 앙상블을 학습한다. 즉, 비전문가 모델의 앙상블은 전문가 모델의 예측 결과와 가까워지도록 학습된다. 비 전문가 모델의 관점에서 전문가 모델이 학습한 소스 데이터는 학습하지 않은 새로운 타겟 데이터로 인식된다. 이를 통해, 비 전문가 모델은 학습하지 않은 새로운 타겟 데이터, 즉 전문가 모델이 학습한 소스 데이터에 대해 성능이 향상된다. 각 모델들은 전문가 모델 관점과 비 전문가 모델 관점의 학습을 통해서 높은 일반화 성능을 보인다. 결과적으로 모든 학습이 완료된 각 모델들의 앙상블은 새로운 타겟 데이터에 대해서도 높은 일반화 성능을 보이는 것이 가능하다. 이에 대한 전체적인 구조를 <Figure 2>에 도식화하였다.


Figure 2. 
Overview of the Proposed Human Activity Recognition Network

<Figure 2>의 (a)는 각 도메인의 전문가 모델을 학습하는 과정으로, 해당 장표는 첫 번째 전문가 모델을 학습하는 과정을 나타낸다. 첫 번째 소스 도메인 데이터 (x1, y1)이 입력되면 첫번째 전문가 모델 Expert #1는 y^1을 예측하고 LCEy1,y^1에 의하여 학습된다. (b)는 전문가 모델과 비 전문가 모델 앙상블의 협력 학습 과정을 나타낸다. 이 과정을 통해 전이 학습이나 도메인 적응 모델과 달리 타겟 데이터 없이 모델의 일반화 성능을 향상시키는 것이 가능하다. 비 전문가 모델 앙상블의 예측 결과는 전문가 모델의 예측 결과와 유사하도록 학습되며, 이를 통해 각 비 전문가 모델들은 학습하지 않은 도메인 데이터에 대해 전문가 모델과 유사한 예측 결과를 얻을 수 있다. 각 전문가 모델은 자신의 도메인에 특화된 예측 성능을 갖으며, 자신의 도메인 이외에서도 우수한 예측 성능을 보일 수 있도록 학습된다. 해당 장표는 첫 번째 소스 도메인에 대한 비 전문가 모델 앙상블을 학습하는 과정을 나타낸다. 첫 번째 소스 도메인 데이터 x1이 입력되면 Expert #1은 해당 도메인에 대해서 전문가 모델이 되며 {Expert #2, Expert #3, ⋯, Expert #K}는 비 전문가 모델이 된다. 비 전문가 모델은 입력 값에 대한 전문가 모델 출력 값과 나머지 비 전문가 모델 앙상블 출력 값 사이의 협력 학습 손실함수로 학습된다. <Figure 2>의 추론 부분은 새로운 타겟 도메인 데이터 xDT가 입력되면 학습된 모든 전문가 모델 앙상블을 통해 최종적인 예측을 하는 것을 나타낸다. 각 전문가 모델은 협력 학습을 통해 특화되지 않은 도메인 데이터에 대해서도 일반화 성능을 향상시킬 수 있도록 학습되어, 새로운 타겟 도메인 데이터에 대한 뛰어난 예측 성능을 달성할 수 있다.

제안 방법론은 도메인에 특화된 전문가 모델을 각 도메인 데이터를 통해서 학습한다. 즉, 하나의 소스 도메인에 하나의 전문가 모델이 학습되게 되며, 각 모델은 소스 도메인 Dsk=xik,yiki=1nk의 샘플 데이터와 레이블 데이터를 통해서 학습된다. 이때 &zik은 각 도메인 데이터가 특징추출기를 통과한 특징벡터를 의미하며, yik는 각 데이터의 레이블을 나타내고, Eii=1k는 각 도메인의 특화된 분류기를 의미한다. 여기서는 식 (1)에서 표현한 교차 엔트로피(cross entropy) 손실함수의 최소화를 통해 지도학습을 수행한다.

LCE=-i=1nkyiklogEkzik(1) 

협력 학습을 통한 분류기 학습은 해당 도메인에 특화된 전문가 모델의 출력 값을 가상 레이블로 하여 비 전문가 모델을 학습한다. 가상 레이블은 아래 식 (3)을 통해 결정되며, k 도메인 전문가 모델을 통해 가상 레이블을 결정한다. 이때 Eii=1k는 각 도메인의 특화된 분류기를 의미하며, zik은 각 도메인 데이터가 공통된 특징추출기를 통과한 특징벡터를 의미한다. 이후 k도메인을 제외한 비 전문가 모델의 출력 평균값과 가상 레이블의 교차 엔트로피를 통해 아래와 같은 (식 (2)) 협력 학습에 대한 손실함수를 산출한다.

LCollaborative =-i=1nkyik^log1K-1jkEjzik(2) 
y^ik=Ekzik(3) 

최종 손실함수는 도메인 특화 분류기의 지도학습에서 산출된 손실함수(식 (1))와 협력 학습을 통해 산출된 손실함수(식 (2))를 가중 합하여 식 (4)와 같이 정의한다.

L=βLce+1-βLcollaborative (4) 

이때 β∈(0,1]는 두 손실함수의 균형을 맞추기 위해 사용한 가중치로 각 손실함수를 전체 손실함수에 얼마나 반영할지 결정한다.

제안 방법론의 구체적인 학습과정은 의사코드(pseudo code)로 나타낸다.



Algorithm 1: COLDOG for Domain Generalization
Input: labeled source mini batches xk,ykk=1K, expert models Ekk=1K, feature extractor Z hyperparameter β, epochs E
Output: expert models Ekk=1K
for epoch = 1 to E do
for k = 1 to K do
zk=Zxk//compute feature vector of Xk
y^k=Ekzk//compute prediction of expert-k
compute cross entropy loss LCE by y^k,yk and Eq. (1)
y~k=1K-1jkEjzk// compute ensemble prediction of non-experts
compute collaborative loss Lcollaborative by y~k,y^k and Eq. (2)
obtain final loss L by LCE, Lcollaborative, β and Eq. (4)
update expert models Ekk=1K to minimize
end for
end for


4. 실험 및 결과

본 연구에서는 3종류의 인간 활동 인식 벤치마크 데이터셋을 사용하여 실험을 진행하였다. 모든 데이터셋은 도메인 일반화 문제상황에 맞춰 leave-one-out cross-validation(LOOCV)방식을 통해서 데이터를 분할하는 단계를 거친다. 즉, 하나의 피실험자 군집 데이터를 타겟 도메인으로 사용하고 남은 피실험자 군집 데이터를 소스 도메인으로 사용하였다.

첫 번째 데이터셋은 일상 및 스포츠활동에 대해 수집된 daily and sports activities(DSADS; Barshan et al., 2013; https://archive.ics.uci.edu/) 데이터셋이다. 해당 데이터셋은 총 8명의 피실험자에게서 19가지 행동에 대한 센서 신호 데이터를 수집하였다. 데이터는 세 개의 축으로 이루어진 가속도계, 자기계, 자이로스코프 센서를 사용하여 수집하였으며, 각 센서는 신체의 다섯 부위인 몸통, 오른팔, 왼팔, 오른다리, 왼다리에 부착하였다. 수집 데이터는 2명의 피실험자를 하나의 피실험군으로 하여 총 4개의 군집으로 나누어 사용하였다.

두 번째 데이터셋은 다양한 신체활동에 대해 수집된 physical activity monitoring(PAMAP2; Reiss et al., 2012; https://archive.ics.uci.edu/) 데이터셋이다. 해당 데이터셋은 총 9명의 피실험자에게서 18가지 행동에 대한 센서 신호 데이터를 수집하였다. 데이터는 손목, 가슴, 발목에 착용된 3개의 관성 측정 장치와 심박수 측정기계를 통해 수집되었다. 본 연구에서는 3개의 관성 측정 장치에서 세 개의 축으로 이루어진 가속도계, 자기계, 자이로스코프 센서를 통해 수집된 데이터를 사용하였다. 또한, 9명의 피실험자 중 8가지 공통된 행동에 대한 실험을 수행한 8명의 데이터만을 사용하였다. 즉, 8명의 피실험자 데이터와 8가지 행동에 대한 센서 신호 데이터를 사용하였다. 수집된 데이터는 2명의 피실험자를 하나의 피실험군으로 하여 총 4개의 군집으로 나누어 사용하였다.

세 번째 데이터셋은 일상적인 활동을 포함한 인간 활동 인식 연구를 위해 개발된 daily activity dataset for ubiquitous activity recognition using wearable sensors(USC-HAD; Zhang et al., 2012; https://sipi.usc.edu/had/) 데이터셋이다. 해당 데이터셋은 총 14명의 피실험자에게서 12가지 행동에 대한 신호 데이터를 수집하였다. 데이터는 전면 우측 골반에 착용한 하나의 모션노드(motionnode)를 통해서 수집되었으며 세 개의 축으로 이루어진 가속도계, 자기계 신호 데이터로 구성되었다. 데이터는 총 14명의 피실험자에게 수집되며, 3명씩 4그룹, 2명씩 1그룹으로 총 5개의 피실험군으로 나누어 사용하였다.

Table 1. 
Summary of Human Activity Recognition Datasets Used in this Study
Dataset Number of Subject Number of Sample Sampling Rate Position Sensor Number of Activity
DSADS 8 ~1.14M 25Hz 5 (torso, right arm, left arm, right leg, left leg) 5 IMUs
(acc, gyro, mag)
19
PAMAP2 9 ~2.84M 100Hz 3 (hand, chest, ankle) 3 IMUs
(acc, gyro, mag)
18
USC-HAD 14 ~2.81M 100Hz 1 (front right hip) 1 Motion Node
(acc, gyro)
12

본 연구에서는 제안 방법론의 성능을 empirical risk minimization(ERM; Vapnik et al., 1991)과 최신 도메인 일반화 방법론들과 비교하였다. ERM은 학습에 사용되는 손실 함수를 최소화하는 모델로 해당 문제상황에서는 모든 소스 도메인 데이터를 사용하여 하나의 모델을 학습하였다. 이는 가장 기본적인 도메인 일반화 모델 성능의 베이스라인으로 삼았다. domain-adversarial neural network(DANN; Ganin et al., 2016)은 적대적학습 방식을 통해 각 도메인간 차이를 줄임으로써, 강건한 특징을 추출하도록 학습하는 방법이다. 이를 통해 다양한 도메인에서 뛰어난 일반화 성능을 보인다. meta-learning for domain generalization(MLDG; Li et al., 2018)은 메타러닝 방식을 통해 도메인 일반화 모델을 학습한다. group distributionally robust optimization(GroupDRO; Sagawa et al., 2019)은 GroupDRO모델에서 성능이 가장 낮은 DRO모델 그룹의 성능을 향상시키도록 학습하는 방법이다. 성능이 가장 낮은 모델 그룹의 성능을 향상시킴으로 전체적으로 높은 일반화 성능을 보인다. representation self-challenging(RSC; Huang et al., 2020)은 높은 그래디언트를 갖는 중요한 특징을 무시하고, 그렇지 않은 정보들을 통해서 예측함으로써 일반화 성능이 높아지도록 모델을 학습한다.

평가척도로는 인간 활동 인식 연구에서 널리 사용되는 활동 분류 정확도(accuracy)를 활용하였다. 아울러 위에서 설명한 방식으로 하나의 군집을 타겟 도메인으로, 나머지 군집을 소스 도메인으로 하여 실험을 진행하였다. 비교방법론은 domainbed(Gulrajani et al., 2020)의 모델구조를 제안 방법론의 모델구조로 변형하여 구현하였다. 모델구조는 3층의 1차원 합성곱 레이어로 구성하였으며, 커널의 크기는 9로 사용하였다. 제안방법론 및 비교방법론 모델 모두 100에폭(epoch)을 학습하였으며, 최적화 알고리즘은 adaptive moment estimation(Adam; Kingma et al., 2014)을 활용하였고, 학습률(learning rate)은 0.0005, 배치 사이즈(batch size)는 64를 사용하였다. 또한 모든 실험에 대하여 3회 반복실험을 진행하고, 평균값을 통해 성능을 비교하였다.

앞서 언급한대로 각 군집을 {T0, T1, ...} 피실험군으로 나누고, 타겟 도메인으로 사용하지 않은 피실험군을 소스 도메인으로 하여 모델을 학습하였다. 예를 들어, DSADS 데이터셋에서 T0가 타겟 도메인이라면, T0, T2, T3는 소스 도메인으로 사용하여 모델을 학습하였다. 제안방법론과 비교방법론의 분류 정확도는 각 DSADS, PAMAP2, USC-HAD 데이터에 대하여 <Table 2>~<Table 4>에 명시하였다. 가장 높은 성능을 보인 방법론에 대하여 굵은 글씨로, 두번째로 높은 성능을 보인 방법론에 대하여 밑줄로 강조하였다. 제안방법론은 DSADS 데이터셋과 PAMAP2 데이터셋에 대해서 약 4% 정확도 향상을 보였고, USC-HAD 데이터셋에 대해서 약 9% 정확도 향상을 보여 최고 성능 비교 방법론과 비교했을 때 우수함을 입증하였다. 이로써 제안 방법론은 인간 활동 인식 분야에서 가장 뛰어난 정확도를 보이며, 이것은 새로운 도메인에서도 강건한 성능의 도메인 일반화 모델임을 보였다. 뿐만 아니라, 인간 활동 인식 분야에서 사용되는 3가지 주요 벤치마크 데이터셋에서 가장 우수한 성능을 보인다는 것은 다양한 인간 활동 인식 센서 신호 데이터에 대해 높은 성능을 보인다는 것을 의미하며, 실험 결과는 제안 방법론이 다양한 인간 활동 인식 데이터셋에 대해 강건하고 우수한 성능을 보이는 도메인 일반화 모델임을 입증하였다.

Table 2. 
Classification Accuracy(%) (±standard deviation) on DSADS. The best and second-best performing domain generalization methods for each target are highlighted in bold and underlined. COLDOG: collaborative learning for domain generalization
Target ERM DANN MLDG GroupDRO RSC COLDOG
(Proposed)
T0 79.51(±0.63) 77.08(±2.58) 81.60(±1.58) 79.40(±4.16) 77.46(±3.38) 89.44(±1.27)
T1 75.80(±1.60) 77.53(±4.74) 81.41(±0.89) 81.79(±1.40) 81.20(±1.22) 80.52(±1.02)
T2 83.10(±2.73) 80.79(±1.31) 87.23(±1.46) 85.76(±0.76) 83.67(±3.45) 89.19(±3.14)
T3 74.84(±2.54) 79.09(±1.40) 82.40(±1.75) 81.66(±3.73) 83.15(±3.72) 83.75(±3.45)
Avg 78.32 78.62 83.16 82.15 81.37 85.66

Table 3. 
Classification accuracy(%) (±standard deviation) on PAMAP2. The best and second-best performing domain generalization methods for each target are highlighted in bold and underlined. COLDOG: collaborative learning for domain generalization
Target ERM DANN MLDG GroupDRO RSC COLDOG
(Proposed)
T0 64.58(±3.05) 49.36(±3.05) 58.19(±1.87) 63.53(±3.42) 57.11(±1.55) 72.18(±6.78)
T1 89.22(±4.65) 81.50(±2.90) 88.65(±4.32) 81.13(±3.99) 92.60(±1.12) 93.65(±2.56)
T2 76.73(±0.53) 77.32(±3.60) 83.07(±1.46) 83.33(±1.76) 85.13(±0.16) 86.55(±1.28)
T3 62.21(±3.66) 61.63(±2.14) 73.28(±2.94) 75.05(±2.94) 67.90(±3.05) 65.75(±3.20)
Avg 73.18 67.45 75.80 75.76 75.69 79.53

Table 4. 
Classification Accuracy(%) (±standard deviation) on USC-HAD. The best and second-best performing domain generalization methods for each target are highlighted in bold and underlined. COLDOG: collaborative learning for domain generalization
Target ERM DANN MLDG GroupDRO RSC COLDOG
(Proposed)
T0 60.42(±1.27) 50.46(±4.66) 59.04(±0.77) 58.93(±1.79) 60.42(±1.27) 81.52(±0.35)
T1 65.31(±0.55) 63.22(±3.53) 64.80(±0.20) 64.80(±0.43) 65.57(±0.54) 81.25(±0.72)
T2 64.55(±1.04) 55.54(±1.98) 63.26(±0.53) 63.13(±1.57) 63.16(±0.66) 79.18(±1.15)
T3 58.11(±3.42) 64.32(±2.88) 66.52(±1.55) 65.57(±0.35) 66.63(±2.22) 66.96(±5.37)
T4 53.76(±1.30) 56.12(±5.62 66.57(±0.57) 66.68(±1.56) 68.85(±1.27) 58.38(±4.73)
Avg 60.56 57.94 64.04 63.79 64.93 73.46

제안 방법론의 핵심인 협력 학습이 도메인 일반화 성능을 향상하는데 어느 정도 효과가 있었는지 보기 위해 도메인별 분류기를 사용하는 앙상블 모델(Ganaie et al., 2022)과 비교하였다. 실험결과는 <Table 5>와 같으며 가장 우수한 성능과 두 번째로 우수한 성능에 각각 굵은 글씨와 밑줄로 강조하였다. 제안 방법론과 앙상블 모델 모두 ERM 모델보다 우수한 성능을 보이지만, 제안 방법론이 앙상블 모델보다 훨씬 우수한 성능을 보임을 알 수 있었다. 이는 제안방법론이 단순히 다수의 분류기를 사용한 것이 아닌 협력 학습에 의해 성능이 향상된 것을 입증한다고 할 수 있겠다.

Table 5. 
Effect of Collaborative Learning on PAMAP2. The best and second-best performing domain generalization methods for each target are highlighted in bold and underlined. COLDOG: collaborative learning for domain generalization
Target ERM Ensemble
(w/o Collaborative learning)
COLDOG
(Proposed)
T0 64.58(±3.05) 62.59(±0.53) 72.18(±6.78)
T1 89.22(±4.65) 89.60(±1.26) 93.65(±2.56)
T2 76.73(±0.53) 80.77(±0.53) 86.55(±1.28)
T3 62.21(±3.66) 65.09(±2.86) 65.75(±3.20)
Avg 73.18 74.51 79.53

제안방법론은 도메인 특화 분류기의 지도학습에서 산출된 손실함수와 협력 학습을 통해 산출된 손실함수를 가중합하여 최종 손실함수를 정의하며, 두 손실함수의 기여도를 조절하기 위해 가중치 β를 사용하였다. 따라서 가중치 β에 따른 모델의 민감도(sensitivity) 분석을 위하여 β를 0.6, 0.7, 0.8, 0.9로 바꾸어 가며 실험하였다. 모든 실험에 대하여 3회 반복실험을 진행하였고, 평균값을 통해 성능을 비교하였다. 실험결과는 Figure 3과 같으며 DSADS 데이터셋과 PAMAP2 데이터셋은 0.6, USC-HAD 데이터셋은 0.7 이상의 값을 가질 때 모든 타겟 도메인에 대하여 정확도의 변화가 거의 없었다. 이를 통해 모델이 가중치 β값에 따라 최종 성능이 크게 변하지 않는다는 것을 알 수 있었다. 이는 제안 방법론이 가중치 β값 변화에 강건한 성능을 보임을 입증한다고 할 수 있겠다.


Figure 3. 
Parameter Sensitivity of β


5. 결 론

본 연구는 인간 활동 인식에 대한 도메인 일반화 프레임워크를 제안한다. 인간 활동 인식 센서 신호 데이터는 사용자 특성에 따라 다양하게 변하기 때문에, 새로운 데이터에 대한 성능 저하 가능성이 높다. 따라서, 새로운 타겟 도메인 데이터가 확보되지 않은 상황에서도 인간 활동 인식의 일반화 성능을 향상시키는 것은 중요한 문제이다. 본 연구의 주요 목표는 새로운 타겟 도메인 데이터가 확보되지 않은 상황에서도 인간 활동 인식의 일반화 성능을 향상시키기 위해 협력 학습을 학습 전략으로 활용해 모델의 일반화 성능을 향상시키는 것이다. 제안 방법론은 각 소스 도메인 데이터를 활용하여 전문가 모델을 학습하고, 이러한 전문가 모델의 출력을 활용하여 비 전문가 모델을 지도 학습하는 방식이다. 다양한 벤치마크 인간 활동 인식 데이터를 이용한 실험 결과를 통해 제안 방법이 가장 우수한 일반화 성능을 나타내며, 견고한 성능을 보여줌을 입증할 수 있었다. 더불어, 다수의 분류기를 사용한 앙상블 모델보다 우수한 성능을 보임으로써 협력 학습의 효과를 입증하였으며, 손실 함수에 사용된 가중치 β의 민감도 실험을 통해 파라미터 변화에 강건한 성능을 입증하였다. 현재 제안 방법은 학습 전략으로 협력 학습을 적용하여 도메인 일반화 성능을 향상시켰지만, 향후에는 각 소스 도메인에서 강건한 표현 벡터를 추출하기 위한 표현 학습을 추가하여 모델의 성능을 더욱 향상시킬 수 있을 것으로 기대한다. 또한, 인간 활동 인식 센서 신호 데이터 뿐만 아니라 다양한 센서 신호 데이터를 활용하여 통합적인 도메인 일반화 모델을 개발할 수 있을 것으로 보인다.


References
1. Dillon Feuz, K. and J. Cook, D. (2014), Heterogeneous Transfer Learning for Activity Recognition Using Heuristic Search Techniques, International Journal of Pervasive Computing and Communications, 10(4), 393-418.
2. Soleimani, E. and Nazerfard, E. (2021), Cross-subject Transfer Learning in Human Activity Recognition Systems Using Generative Adversarial Networks, Neurocomputing, 426, 26-34.
3. Cook, D., Feuz, K. D., and Krishnan, N. C. (2013), Transfer Learning for Activity Recognition: A Survey, Knowledge and Information Systems, 36, 537-556.
4. Pan, S. J. and Yang, Q. (2009), A Survey on Transfer Learning, IEEE Transactions on Knowledge and Data Engineering, 22(10), 1345-1359.
5. Chang, Y., Mathur, A., Isopoussu, A., Song, J., and Kawsar, F. (2020), A Systematic Study of Unsupervised Domain Adaptation for Robust Human-activity Recognition, Proceedings of the ACM on Interactive, Mobile, Wearable and Ubiquitous Technologies, 4(1), 1-30.
6. Khan, M. A. A. H., Roy, N., and Misra, A. (2018, March), Scaling Human Activity Recognition Via Deep Learning-based Domain Adaptation, In 2018 IEEE International Conference on Pervasive Computing and Communications (PerCom), IEEE, 1-9.
7. Wang, J., Lan, C., Liu, C., Ouyang, Y., Qin, T., Lu, W., ... and Yu, P. (2022), Generalizing to Unseen Domains: A Survey on Domain Generalization, IEEE Transactions on Knowledge and Data Engineering.
8. Ravi, N., Dandekar, N., Mysore, P., and Littman, M. L. (2005, July), Activity recognition from accelerometer data. In AAAI, 5(2005), 1541-1546.
9. Chen, L., Hoey, J., Nugent, C. D., Cook, D. J., and Yu, Z. (2012), Sensor-based Activity Recognition, IEEE Transactions on Systems, Man, and Cybernetics, Part C (Applications and Reviews), 42(6), 790-808.
10. Song, G. and Chai, W. (2018), Collaborative Learning for Deep Neural Networks, Advances in Neural Information Processing Systems, 31.
11. Barshan, B. and Altun, K. (2013), Daily and Sports Activities, UCI Machine Learning Repository, https://doi.org/10.24432/C5C59F.
12. Reiss, A. (2012), PAMAP2 Physical Activity Monitoring, UCI Machine Learning Repository, https://doi.org/10.24432/C5NW2H..
13. Zhang, M. and Sawchuk, A. A. (2012, September), USC-HAD: A daily activity dataset for ubiquitous activity recognition using wearable sensors, In Proceedings of the 2012 ACM Conference on Ubiquitous Computing, 1036-1043.
14. Vapnik, V. (1991), Principles of Risk Minimization for Learning Theory, Advances in Neural Information Processing Systems, 4.
15. Ganin, Y., Ustinova, E., Ajakan, H., Germain, P., Larochelle, H., Laviolette, F., ... and Lempitsky, V. (2016), Domain-adversarial Training of Neural Networks, The Journal of Machine Learning Research, 17(1), 2096-2030.
16. Li, D., Yang, Y., Song, Y. Z., and Hospedales, T. (2018, April), Learning to Generalize: Meta-learning for Domain Generalization, In Proceedings of the AAAI Conference on Artificial Intelligence, 32(1).
17. Sagawa, S., Koh, P. W., Hashimoto, T. B., and Liang, P. (2019), Distributionally Robust Neural Networks for Group Shifts: On the Importance of Regularization for Worst-case Generalization. arXiv preprint arXiv:1911.08731.
18. Huang, Z., Wang, H., Xing, E. P., and Huang, D. (2020), Self-challenging Improves Cross-domain Generalization. In Computer Vision–ECCV 2020: 16th European Conference, Glasgow, UK, August 23-28, 2020, Proceedings, Part II 16, Springer International Publishing, 124-140.
19. Gulrajani, I. and Lopez-Paz, D. (2020), In Search of Lost Domain Generalization. arXiv preprint arXiv:2007.01434.
20. Kingma, D. P. and Ba, J. (2014), Adam: A Method for Stochastic Optimization. arXiv preprint arXiv:1412.6980.
21. Ganaie, M. A., Hu, M., Malik, A. K., Tanveer, M., and Suganthan, P. N. (2022), Ensemble Deep Learning: A Review, Engineering Applications of Artificial Intelligence, 115, 105151.
22. Chen, K., Zhang, D., Yao, L., Guo, B., Yu, Z., and Liu, Y. (2021), Deep Learning for Sensor-based Human Activity Recognition: Overview, Challenges, and Opportunities, ACM Computing Surveys (CSUR), 54(4), 1-40.
23. Bulling, A., Blanke, U., and Schiele, B. (2014), A Tutorial on Human Activity Recognition Using Body-worn Inertial Sensors, ACM Computing Surveys (CSUR), 46(3), 1-33.

저자소개

정용태: 인천대학교 산업경영공학과에서 2023년 학사학위를 취득하고, 고려대학교 산업경영공학과에서 석사과정에 재학 중이다. 연구 분야는 Domain Adaptation, Domain Generalization이다.

김성범 : 고려대학교 산업경영공학부 교수로 2009년부터 재직하고 있으며, 인공지능공학연구소 소장, 기업산학연협력센터 센터장, 한국데이터마이닝학회 회장을 역임했다. 미국 University of Texas at Arlington 산업공학과에서 교수를 역임하였으며, 한양대학교 산업공학과에서 학사학위를 미국 Georgia Institute of Technology에서 산업시스템공학 석사 및 박사학위를 취득하였다. 인공지능, 머신러닝, 최적화 방법론을 개발하고 이를 다양한 공학, 자연과학, 사회과학 분야에 응용하는 연구를 수행하고 있다.