
혼합 가스 분류를 위한 전이학습 기반 방법론
© 2021 KIIE
Abstract
This paper proposes a new method for mixed gas classification based on the convolutional neural network (CNN) using transfer learning. The mixed gas classification is challenging because a gas sensor array of mixed gases is complex and high dimensional data. Moreover, it is limited to obtain enough training datasets due to high data collection costs. To overcome the challenges, the proposed method maps a gas sensor array into an analogous-image matrix, adopts the CNN for feature extraction from images, and uses transfer learning to speed up training and improve the performance of the CNN. The proposed method is validated using public mixture gas data from the UCI Machine Learning Repository and real data examples
Keywords:
Mixture Gas Classification, Convolutional Neural Network, Transfer Learning1. 서 론
인간의 오감은 기술 발전에 많은 영감을 주어 왔다. 그 중 인간의 시각과 청각 기능으로부터 영감을 받은 기술의 경우 지난 10여년 간 괄목한 수준의 성장을 이루었다. 컴퓨터 비전 기술은 이미 특정 분야에서 인간의 시각 능력을 뛰어 넘어 자율 주행 및 의학 분야에서 다양하게 활용되고 있고, 음성 인식 기술도 스마트폰, 자동차 등 다양한 전자 기기에 설치되어 사용되고 있다. 반면, 촉각이나, 후각, 미각과 관련된 연구는 시각과 청각이 인간의 감각기관 수준에 근접한 것과 비교하면 상대적으로 미흡한 수준이다(Chen et al., 2019).
가스 센서 어레이를 기반으로 후각 시스템을 모방한 전자코는 Persaud와 Dodd에 의해 1981년에 처음으로 소개되었다(Persaud and Dodd, 1982). 전자코는 가스 센서 어레이 조합과 패턴인식 신호처리 기술을 활용한 인공 후각 시스템이다. 가스 센서 데이터를 활용한 연구들은 산업 현장 등에서 활발하게 응용되고 있으며, 의료 분야에서는 환자의 호흡을 분석하여 병을 진단하고(Konvalina and Haick, 2014), 환경 모니터링 분야에서는 실시간으로 공기 오염 정도를 측정하는(Capelli et al., 2014) 등 다양한 연구가 진행되고 있다.
오늘날 가스 센서 어레이의 신호 패턴을 분석해 후각 특성을 학습할 수 있는 다양한 기계학습 알고리즘들이 전자코에 적용되고 있다. 후각과 관련된 연구의 기초가 되는 가스 센서 어레이(GSA, Gas Sensor Array) 데이터 및 분석 연구는 여러 센서에서 수집되는 응답값에 기반한다. 센서의 응답값은 화학 물질의 종류에 따라 그 다양성이 크고, 혼합 가스의 경우 비선형적인 관계들로 결합되어 있어 분석에 어려운 점이 있다. 이에 따라 최근 딥러닝의 발전과 더불어 후각과 관련된 연구가 활발하게 진행되고 있다(Sanchez-Lengeling et al., 2019).
가스 센서 어레이 관련 연구는 크게 세 가지로 나뉜다. 첫째, 화학 냄새 시그널을 전자 신호로 바꾸어 주는 센서 어레이 연구, 둘째, 가스 데이터의 특징을 추출하는 전처리 방법 연구, 그리고 셋째, 가스 데이터의 패턴을 인식하는 연구이다. 본 연구는 가스 데이터 전처리와 패턴 인식과 관련된 연구로 혼합 가스를 효과적으로 분류하는 새로운 방법을 제안한다. 산업 현장에서 발생할 수 있는 독성 가스나 일상 생활에서의 악취 등은 화학 물질들로 이루어진 혼합 가스에서 기인하기 때문에, 본 연구의 결과는 혼합 가스를 모니터링하고, 그 종류와 원인을 실시간으로 파악하는데 주요한 역할을 할 수 있다.
하지만, 혼합 가스를 분류하는 문제는 일반적인 분류 문제보다 어렵다. 그 이유는 첫째, 혼합 가스는 순수한 가스와 달리 서로 다른 가스들이 화학 작용을 일으켜 전혀 다른 성질의 값으로 표현될 수 있다. 이러한 특징들 때문에 일반적인 분류 방식으로는 혼합물 가스를 분류하기 어렵다. 그렇기 때문에 혼합물 데이터만의 특징을 반영한 분류 방식이 필요하다. 둘째, 가스 어레이 데이터는 고차원의 데이터이다. 혼합물 가스는 시계열의 형태로 데이터가 기록되고 여러 개의 센서로 동시에 측정되기 때문에 복잡하고 큰 차원의 데이터를 가진다. 셋째, 충분한 양의 학습용 데이터를 확보하기 용이하지 않다. 실험실에서 혼합 가스를 생성하여 학습용 데이터를 확보하기에는 많은 비용과 시간이 소요된다. 한편, 일반 대기 중에서 센서를 통해 채취하기에는 혼합 가스의 종류가 다양하고, 많은 제어 변수들을 통제하기가 어렵기 때문에, 원하는 혼합 가스를 채취하기가 거의 불가능하다. 이와 같은 이유로 기존에 축적된 가스 데이터가 있다고 하더라도 새롭게 측정된 데이터와 함께 결합하여 분석하기가 쉽지 않다. 이러한 어려움을 극복하고 부족한 가스 센서 어레이 데이터를 기반으로 혼합 가스를 분류하기 위하여 우리는 전이학습을 활용한 혼합 가스 분류 방법론을 제안한다.
2. 문헌 연구
2.1 가스 센서 어레이의 특성과 분석 방법론
화학적 특성을 포함하는 가스 센서 어레이는 휘발성 성질을 가지는 화학 물질 분석에 중요한 역할을 하고 있다. 가스 센서 어레이의 분석 연구는 데이터 수집에서 패턴 분석의 일련의 과정에서 크게 세 단계로 구분할 수 있다.
- • 화학 냄새 시그널을 전자 신호로 바꾸어 주는 센서 어레이 연구 : 가스 센서의 소자는 화학 물질의 화학적/전기적 특성을 활용하며, 일반적으로 금속 산화물 기반 센서(MOX)(Barsan et al., 2007; Degler, 2018; Yan et al., 2017), 전도성 폴리머 복합 재료(Bai and Shi, 2007; Lange et al., 2008), 탄소 나노 물질(Llobet, 2013; Varghese et al., 2015) 등이 사용되고 있다. 가스 센서는 소자의 화학적 특성을 바탕으로 가스를 감지하며, 측정 환경의 온도/습도 및 측정 가스 자체에도 영향을 받는다. 따라서 낮은 정밀도, 교차 선택성과 같은 가스 감지 분야의 과제를 해결함으로써 가스 센서 어레이의 분석을 향상시킬 수 있다.
- • 가스 데이터의 특징을 추출하는 전처리 방법 연구 : 가스 센서 어레이를 활용한 분석 모델의 성능은 모델 학습에 사용되는 데이터의 특성에 크게 의존한다. 따라서 패턴 학습 이전에 센서 데이터 및 전자 신호의 전처리가 필수적이며 센서 드리프트 보정, 센서 어레이에서 특성 추출, 벡터 형태로 데이터 변환 등과 같은 단계들로 구성되어 있다. 구체적으로 PCA(Faleh et al., 2016), LDA(Thammarat et al., 2018), ANN(Casey et al., 2019) 등의 방법들이 제안되었다. 고차원의 희소적 특성을 가진 가스 센서 어레이를 전처리 하기위해 차원 축소 혹은 특성 선택과 같은 방법론들이 적용되고 있다.
- • 가스 데이터의 패턴을 인식하는 연구 : 최근에는 가스 센서 어레이의 전처리와 이를 바탕으로 데이터의 패턴을 효율적으로 인식하는 방법에 대한 연구들이 활발하게 진행되고 있다. 일련의 가스 센서 어레이의 다변량 반응은 “전자 지문”으로 활용되어 광범위한 냄새 또는 휘발성 화합물을 패턴 인식 수단으로 특징 지을 수 있다. 가스 패턴 인식 연구는 데이터 샘플링 정량화, 분석 처리, 형상 추출 및 분류 결정 등의 분야를 포함한다. 이러한 분석 방법에 따라, 임의의 데이터가 주어졌을때, 이를 분석하고 예측하는 방법들을 제안하며, 이를 위해 K-Nearest Neighbor(Brahim-Belhaouari et al., 2014; Gutierrez-Osuna et al., 2003), Random Forest(Krivetskiy et al., 2018), SVM(Laref et al., 2018; Vergara et al., 2012), ANN(Park et al., 2012; Ye, 2019; Cheng et al., 2019) 등의 방법들이 연구되었다.
일반적으로 사용되는 가스 센서들은 각각 다른 화학물질의 검출을 목표로 하는데, 센서의 소자와 화학 물질의 화학 반응에 따라 센서의 응답값이 결정된다. 이를 위해 센서는 산화물의 전자적 구조, 화학적 조성, 결정 구조, 결정 방향, 입자 크기, 가스에 노출되는 산화물의 표면특성 등을 고려하여 설계된다(Lee et al., 2019). 혼합 가스에서 수집되는 센서 응답값은 단일 가스에서 수집되는 센서 응답값과 비선형적인 관계를 가진다. 예를 들어 금속 산화물 반도체 기반 센서(MOX)의 반도체 소자는 산화물의 표면의 전기전도도 차이를 바탕으로 가스에 포함된 화학물질을 검출해 낸다. 단일 가스의 경우 일관적인 응답값을 보이는 반면, 혼합 가스의 경우 단일 가스에서 측정한 값들을 결합해 응답값을 예측 할 수 없다. 따라서 가스 센서 어레이를 분석하는 최근 연구에서 심층 인공 신경망과 같은 새로운 방법들이 시도되고 있다.
2.2 심층 인공 신경망(DNN) 과 합성곱 네트워크(CNN)
심층 인공 신경망(Deep Neural Network)은 입력 계층(Input Layer)과 출력 계층(Output Layer), 그리고 두 개 이상의 숨겨진 계층(Hidden Layer)으로 구성된 다층 구조에 기반하고 있다. 일반적으로 출력 계층은 데이터의 클래스 수와 일치하도록 설정되며, 입력 계층의 경우 데이터에서 추출한 특성을 사용하여 구성함으로써, 이를 학습 모델에 효과적으로 반영할 수 있다. 이러한 심층 신경망의 출력 계층은 시그모이드(Sigmoid)나 하이퍼볼릭 탄젠트(Hyperbolic Tangent)와 같은 비선형 함수를 결합하여, 효과적으로 데이터의 특성을 추출해 낼 수 있다(Greenspan et al., 2016; Guo et al., 2016; Schmidhuber, 2015). 가스 센서 어레이의 경우, 다차원 및 시계열 특성을 가지고 있으며, 이를 해결하기 위해 연속적인 프레임으로 이루어진 고차원의 특성 벡터를 입력으로 사용하고 있다. 따라서 이러한 데이터를 적절하게 변환하고 분석하기 위해 본 연구에서는 합성곱 신경망을 사용하였다.
합성곱 네트워크(Convolutional Network) 혹은 합성곱 신경망(Convolutional Neural Network)은 그리드와 유사한 토폴로지를 가지고 있는 데이터 처리에 적합한 신경망으로 알려져 있다. 예를 들어 정규 시간 간격으로 샘플을 채취하는 1-D 그리드로 생각할 수 있는 시계열 데이터와 픽셀의 2-D 그리드로 생각할 수 있는 이미지 데이터가 있으며, CNN은 이러한 데이터의 응용 분야에서 큰 성과를 보이고 있다(Bengio et al., 2013; LeCun et al., 2015). 구체적으로 CNN은 합성곱(Convolution) 레이어, 풀링(Pooling) 레이어, 활성화 함수(Activation Function)을 통해 핵심적인 특징을 추출한다. 합성곱 레이어는 많은 정보를 담고 있는 데이터를 합성곱 연산을 통해 특징을 추출하는 역할을 한다. 활성화 함수는 비선형적으로 특징들을 표현할 수 있도록하는 역할을 하고 평균 풀링(Average pooling) 혹은 최대값 풀링(Maximum Pooling)을 통해 특성 데이터를 줄이는 역할을 한다. 데이터들은 여러 합성곱 레이어, 풀링 레이어, 활성화 함수를 거치면서 핵심 정보들이 추출된다. 이러한 과정을 순전파(Feedforward)라고한다. 그리고 마지막으로 각 분석 목적에 맞게 fully connected된 레이어를 통해 목적 함수(Objective function)에 넣어진다. 예측값과 실제 값의 차이를 바탕으로 오차가 계산되고 오차값을 바탕으로 역전파(Backpropagation) 알고리즘이 적용된다. 이후 순전파와 역전파를 반복하며 오차가 최소가 되는 값으로 매개변수들이 학습된다(Goodfellow et al., 2016; Yamashita et al., 2018).
2.3 전이학습
심층 인공 신경망은 딥러닝 분야의 대표적인 모델로, 대량의 데이터를 기반으로 훈련된 깊은 신경망에 기반한 모델링 방식을 통해 데이터의 특성을 효과적으로 표현하는 방법으로 주목받고 있다. 그러나 심층 신경망을 훈련하려면 충분한 양의 데이터가 필요하기 때문에 대량의 데이터를 사용할 수 없는 상황에서는 과적합(Over-fitting) 현상이 발생할 수 있다. 전이학습(Transfer Learning)은 데이터 양이 충분한 도메인에서 학습한 모델을 사용하여 데이터가 적은 도메인에 대한 모델을 학습시킴으로써 이러한 문제를 해결하는 방법이다. 일반적으로 심층 신경망의 전이학습은 우선 충분한 수의 데이터를 가지고 있는 도메인에서 사전 학습(Pretrain)을 수행한다. 이후 해당 모델의 특성을 활용해 미세조정(Finetuning)을 수행하거나, 고정추출하는 방식이 있다. 미세조정의 경우 사전학습된 심층망의 가중치를 이용해 전체 네트워크를 학습시키는 방식이고, 고정추출의 경우 심층망의 가중치를 고정하고 추출된 특성을 활용한다는 차이점이 있다. 사전학습된 심층망은 무작위로 초기화된 심층 신경망에 비교해 더 나은 성과를 보여주고 있다. (Guo et al., 2019; Tan et al., 2018; Weiss et al., 2016).
서로 다른 도메인 데이터를 활용한 전이학습은 위와 같이 사전 훈련된 심층 신경 네트워크를 활용하여 데이터가 적은 상황에서 효과적인 모델을 만들어 낼 수 있다. 특히 사전훈련 과정은 레이블 정보가 필요하지 않기 때문에, 레이블 사이의 변환과정 없이 유사한 도메인의 데이터를 쉽게 활용할 수 있다는 장점이 있으며, 가스 센서 데이터와 같이 정확하게 레이블이 되어있는 데이터가 적은 경우에도 효과적으로 사전학습된 인공신경망을 효과적으로 사용할 수 있다는 장점이 있다.
2.4 딥러닝 기반의 가스 센서 어레이 분석
앞서 설명한 합성곱 신경망(CNN)은 다양한 영역에서 성공적인 성과를 내고 있으며, 시계열 분석을 위해 CNN을 활용한 아키텍처들이 채택하기 시작했다(Gamboa, 2017; Zhao et al., 2017). 또한, CNN의 특성 추출을 효과적으로 활용하기 위해 전이학습을 시계열 분류 모델에 활용한 접근들도 연구되고 있다(Fawaz, 2018, 2019). 최근 가스 센서 어레이의 연구는 심층 인공 신경망으로 대표되는 여러 딥러닝 기술들을 활용해 진행되고 있다.
고차원인 혼합 가스데이터를 효과적으로 활용하기 위해서는 데이터의 전처리와 특성 추출이 필수적이다. 고차원의 데이터에서 어떤 특징 추출 방법을 쓰느냐에 따라 사용 할 수 있는 분류 알고리즘이 달라지고, 특징 추출과정에서 중요한 정보들이 손실되어 버리는 문제점도 있다. 따라서 독립적인 전처리 과정없이 바로 특징을 추출하고 분류 모델을 개발하는 방법들이 연구되고 있으며, 이를 위해 앞서 설명한 합성곱 네트워크와 전이학습들이 활용되고 있다.
Peng et al.(2018)에서 처음으로 혼합물 가스 데이터에 깊은 신경망을 적용하여 GasNet이라는 모델을 제안하였으며, Wei et al.(2019)에서는 기존의 LeNet-5 구조를 활용하여 가스 분류에 활용하였다. Zhao et al.(2019)에서는 One dimensional deep convolutional neural network(1D-DCNN)이라는 모델을 통해 특성 추출과 분류 모델의 개발을 제안하였고, Han et al.(2019)에서는 가스 센서 어레이의 새로운 Representation 접근 방법론과 전이학습을 통해 VGG, ResNet 등의 여러 사전 학습 된 모델에 적용하는 시도를 하였다.
3. 방법론
본 논문은 고차원 혼합 가스 데이터를 다루는 여러 논문 중 Han et al.(2019)에서 제안한 방법론에 기반하여, 기존의 시계열 데이터를 CNN을 통해 분류하는 방식으로 접근하였다. 시계열 형태로 구성되어있는 고차원 혼합 가스 데이터를 그래프로 나타내고, 이를 이미지로 변환하여 CNN을 사용해 분류하는 방식을 취하였다. 또한, 방법론의 검증을 위해 가스 센서 어레이 데이터 중 공개 데이터인 UCI 데이터(Fonollosa et al., 2014)과 태성환경연구소에서 측정된 실제 실험 데이터에 적용하여 방법론의 적합성을 검증하였다. 전반적인 실험 과정은 가스 센서 어레이로 구성된 데이터를 전처리를 통해 이미지로 변환하고, 이를 CNN기반의 사전학습 모델에 전이학습 방법론에 적용하는 방식으로 구성되어 있다.
가스 센서 데이터는 여러 개의 센서 응답값으로 구성된 고차원 데이터이다. 고차원 데이터를 효율적으로 다루기 위해 다양한 전처리 방식이 사용되고 있으나, 이러한 전처리 알고리즘들은 데이터 가공 방식에 따라 알고리즘의 성능에 크게 영향을 줄 수 있고, 데이터의 특성을 온전히 보전하지 못한다는 문제점이 존재한다. 또한, 혼합 가스는 서로 다른 혼합물들이 화학 작용을 통해 새로운 성질의 값을 가질 수 있기 때문에 개별 가스의 센서 응답값을 알고 있다고 하더라도 그것을 이용하여 혼합 가스의 센서 응답값을 유추하기가 어렵다는 특징이 있다.
위와 같은 문제들을 해결하기 위해 본 연구에서는 각 센서 응답값마다 고유한 색을 지정하여 이미지로 변환하였다. 변환된 이미지에 합성곱 신경망(CNN) 알고리즘을 적용하면 혼합물에 따른 각 센서들의 미묘한 차이들도 자동으로 그 특징을 추출할 수 있다. 이러한 접근 방법은 전통적인 머신러닝 방법과 달리 중요한 정보들이 보존되어 데이터 손실 문제를 해결할 수 있으며 추가적인 데이터 처리 과정 없이 원본 데이터에서 분류까지 end-to-end로 문제 해결이 가능하다.
3.1 혼합 가스 데이터 수집 및 전처리
혼합 가스 데이터는 총 N개의 다중 시계열 데이터 행렬로 구성되어 있다고 가정한다. 각 행렬은 시간에 따라 순서대로 측정된 센서 응답값으로 구성되어 있고, Xi, i=1, ⋯, N로 표현한다. 행렬의 크기는 센서의 개수(M)과 응답값의 개수(T)에 의해 결정되고, N개의 행렬의 크기는 M×T로 모두 같다. 예를 들어, UCI 데이터는 총 8개 센서에서 0.3~300초 동안 0.1초 간격으로 센서 응답값을 측정한 X8×2970 행렬 데이터이다. 행렬 원소값 xm,t는 m번째 센서에서 측정된 t번째 센서 응답값을 의미한다. 일반적으로 T값이 M값보다 훨씬 크기 때문에, 이미지 형태의 CNN 모델에는 적합한 형태가 아니며, 이러한 형태에서 CNN을 적용할 경우 정보의 손실이 발생할 수 있다. 해당 데이터를 기존의 CNN 모델에 적용하기 위해서는 데이터를 유사 이미지 행렬로 변환해야 하며, 이러한 Image mapping 과정을 통해 모델 학습에 적절한 특성을 추출할 수 있다. 본 연구에서는 아래와 같이 모든 i=1, ⋯, N에 대하여, M×T 크기의 행렬을 hy×hx×3 크기의 행렬로 데이터를 변환하였다.
시계열 데이터 행렬을 유사 이미지 행렬로 변환하는 과정은 다음과 같다. 시계열 데이터 행렬 Xi를 M개의 센서 별 시계열 데이터라고 생각하면, x축은 시간 축, y축은 응답값 축으로 구성된 그래프에 M개의 선으로 표현 가능하다. 선을 구성하는 점들이 불균형하고 간헐적인 경우가 많기 때문에, 선형 보간법(Linear Interpolation)을 통해 보완한다. 다음으로, 전체 데이터의 최대 센서 응답값인 V로 데이터를 정규화(normalize) 한다. maxe를 행렬에서 최대 원소값을 찾는 연산으로 지칭할 때, 로는 다음과 같이 정의한다.
<Figure 1>은 정규화 된 M개 시계열 데이터의 예들을 보여준다. 그래프의 x축의 범위는 [1, T], y축의 범위는 [0, V]이고, 서로 다른 센서인 것을 표시하기 위해 각각의 선에 임의로 다른 색을 부여하였다. 각 센서에 부여한 색상은 <Appendix A>와 <Appendix B>에 설명하였으며, Python Matplotlib 라이브러리의 기본 컬러맵을 바탕으로 지정하였다. <Figure 1(a)>와 <Figure 1(b)>는 UCI 데이터의 서로 다른 두 클래스에 속한 시계열 데이터의 예이고, <Figure 1(c)>와 <Figure 1(d)>는 실제 실험 데이터의 서로 다른 두 클래스에 속한 시계열 데이터의 예이다. 각 데이터에서 클래스들의 화학적 특성과 수집 방법은 <Appendix A>와 <Appendix B>에 자세히 설명하였다.
각 센서 별로 그래프의 [0, V]×[1, T] 영역을 hy×hx개의 같은 크기의 영역으로 나누어 각 영역에 데이터가 포함되어 있으면 1, 없으면 0의 값을 갖는 총 M개의 hy×hx 크기의 0-1 행렬 Hm, m=1, ⋯, M을 만든다. hy와 hx의 값은 사전에 정의한 이미지 크기에 따라 결정되는데, 만약 dpi(dots per inch) = 80에 가로 8 inch 세로 6 inch의 크기로 정의하면, 해당 이미지 행렬은 480×640 크기를 갖게 된다. 한편, m번째 센서가 부여받은 색의 RGB 값을 (rm, gm, bm)이라고 하면, Xi는 아래와 같이 hy×hx×3 크기의 행렬인 Di로 변환할 수 있다.
(1) |
식 (1)에서 RGB값 별로 모든 센서들에 대하여 행렬값의 평균을 계산하는 것은 센서 별로 생성된 이미지를 겹치는 방식(Overlay)으로 결합한다는 것을 의미한다. 이렇게 생성된 이미지들은 CNN의 입력값으로 사용된다.
3.2 사전학습된 합성곱 네트워크 모델과 전이학습
합성곱 네트워크(Convolutional Network) 혹은 합성곱 신경망(Convolutional Neural Network)은 그리드와 유사한 토폴로지를 가지고 있는 데이터 처리에 적합한 신경망으로 알려져 있다. CNN 모델은 여러 층의 CNN Layer를 쌓는 형태로 구성되어 있으며, 이러한 레이어를 활용해 입력 데이터의 특성을 추충하는데 사용될 수 있다. 또한, 이미지와 같은 데이터에서 위와 같은 과정을 통해 추출된 특성을 활용하여 분류 모델을 학습 할 경우, 우수한 성과를 보이고 있다. 하지만, 다음과 같은 두 가지 이유로 CNN 모델의 학습에 어려운 점이 존재한다.
깊이(Depth)와 너비(Width)는 네트워크의 복잡도를 증가시키는 가장 큰 요소이다. 깊은 인공 신경망을 학습하다보면 역전파 과정(Back Propagation)에서 입력층으로 갈수록 기울기(Gradient)가 점점 작아지는 현상이 일어나거나 비정상적으로 커지는 현상이 나타난다. 이처럼 신경망을 통한 학습을 할 때 확률적 경사 하강법(Stochastic gradient descent)을 사용하기 때문에 네트워크가 깊어지면 깊어질수록 기울기 소실(Gradient vanishing)과 기울기 폭주(Gradient exploding)가 일어나 성능저하(degradation)가 생겨 학습이 어려워지는 문제점이 있다. 인공신경망의 뉴런 가중치 값을 적절하게 설정하기 위한 가중치 초기화(Weight Initialization), 배치 정규화(Batch Normalization)나 활성 함수의 적절한 선택을 통해 이러한 문제를 해결할 수 있다. 또한, 모델이 더 많은 매개 변수를 도입하면 네트워크를 학습하기가 더 어려워지며, 레이어의 개수가 많아질 수록 오히려 학습효과가 적어지는 현상이 나타날 수 있다. 또한, 경사하강법을 활용한 학습과정이 어려워지면서 학습 데이터에 과적합(Overfitting) 되는 등의 문제들이 발생할 수 있다.
이러한 문제를 해결하기 위해 Residual network(Resnet)(He et al., 2016)가 제안되었다. 기존 뉴럴 네트워크의 목적 함수가 H(x)라고 한다면 Resnet에서는 목적함수는 아래와 같이 잔차(Residual)로 표현이 되고 이 의미는 입력과 출력의 잔차를 학습하는 것이 된다 : F(x)=H(x)-x. 이처럼 잔차값을 0으로 최적화 하는 것이 기존의 방법론 보다 깊은 함수를 학습하는 데에 효과적이다(He et al., 2016). 본 연구에서는 이러한 Resnet의 특성을 활용하기 위해 Resnet-50 모델을 선택하였으며, ImageNet dataset을 사용해 사전학습(Pretrained)된 모델을 전이학습에 적용하였다. <Figure 2>에서 제안한 방법의 모델 구조를 그림으로 나타내었다.
혼합 가스 데이터를 미리 학습된 네트워크에 전이학습을 적용하여 적은 데이터로도 CNN 알고리즘을 사용할 수 있도록 하였다. 전이 학습의 정의는 기반 지식 도메인(Source Domain) DS, 학습 태스크(Task) τS, 타겟(Target) 도메인 DT, 그리고 타겟의 학습 태스크 τT가 있다고 할 때 DS, τS의 정보를 사용하여 타겟 예측 함수 Fτ(·)의 학습 능력을 향상 시키는 것이다. 일반적인 기계학습 과정은 학습 도메인(DS, τS)는 다수의 데이터를 사용해 모델을 학습시키고, 유사한 도메인의 평가 데이터(DT, τT)를 사용해 모델을 평가시키는 방식으로 진행된다.
전이학습의 경우, 타겟하는 도메인이 다르거나(DS≠DT), 학습 태스크(τS≠τT)가 다른 경우 사용된다. 학습 도메인(DS, τS)는 다수의 데이터를 사용해 모델을 사전 학습시키고 이를 활용하여 새로운 도메인(DT, τT)에 적용하는 방식으로 작동한다. 구체적으로 전이학습에는 미세조정(Finetuning) 혹은 고정 특징 추출 방법이 쓰인다. 미세조정은 가중치들이 무작위 초기화 되는 것이 아니라 학습된 모델의 가중치로 초기화한 후 네트워크 전체를 학습하는 방법이고 고정 특징 추출방법은 전이학습을 한 모델의 특징 추출 레이어를 고정한 후 분류를 위한 완전 연결된 레이어만 학습하는 방법이다(Guo et al., 2019). 미세조정과 고정 특징 추출은 데이터의 특성에 따라 다른 결과가 나타날 수 있다.
본 연구에서는 전이학습을 통해 기존에 다수의 데이터를 활용하여 사전 학습 된 모델에서 특성을 고정추출 하는 방식을 활용하였다. 미세조정 방법의 경우, 타겟 도메인의 특성을 더 많이 반영할 수 있다는 장점이 있지만 전체 네트워크의 가중치를 추가적으로 학습해야하기 때문에 상대적으로 많은 리소스를 필요로 한다. 따라서, 본 연구에서는 사전학습된 심층 신경망에서 특성을 고정추출하는 방식을 선택하였다. 즉, 모델의 마지막 레이어만 새롭게 설계하여 목표하는 클래스를 분류하는 분류기(Classifier)를 학습시켰다. 앞서 설명한 ResNet-50 모델을 사용하였으며, 이를 통해 추출된 2048개의 특성을 사용해 분류기를 학습하였다. 학습이 수행되는 분류기는 2048개의 입력값을 512개로 출력하는 은닉층과, 512개의 입력값을 클래스의 수로 출력하는 두 개의 레이어로 구성되어 있으며, UCI 데이터는 5개, 실제 실험 데이터는 4개의 클래스를 구분하도록 모델을 설계하였다. 혼합 가스 데이터의 비선형성을 반영하기 위해 ReLU 활성화 함수가 사용되었으며, 이를 통해 분류기가 각 클래스를 명확히 구분할 수 있도록 학습하였다. 또한, 과적합을 방지하기 위해 20% dropout이 추가되었다. 모델의 학습 loss는 Weighted Cross Entropy를 사용하여 계산하였고, Adam optimizer를 이용해 역전파 학습 과정을 진행하였다. Learning rate는 10-6, Batch size는 4로 총 20 Epochs를 학습시켰으며, 각 클래스를 정확히 구분 할 수 있는 균형정확도(Balanced Accuracy)를 평가 기준으로 사용하였다.
4. 실험 및 결과
본 장에서는 앞에서 제안한 방법을 UCI 데이터와 태성환경연구소의 실제 실험 데이터에 적용하여 그 성능을 검증하고자 한다. 제 4.1절에서는 두 종류의 데이터에 대해서 소개하고, 제 4.2절에서는 실험 설정에 대해 설명한다. 그리고 제 4.3절에서 실험 결과에 대해 요약 분석한다.
4.1 실험 데이터
UCI 데이터는 UCI Machine Learning Repository에 공개되어 있는 “Gas sensor array exposed to turbulent gas mixtures Data Set”를 사용하였다(Fonollosa et al., 2014). UCI 데이터에서는 세 종류의 표준가스를 활용해 다섯 가지의 혼합 가스를 생성하고 총 여덟 개의 센서를 사용하여 센서 응답값을 측정하였다. 이때 각 클래스 별 혼합 가스의 종류와 구성은 <Table 1>에 요약하였다. 각 가스의 농도 N, L, M, H값은 <Table 2>와 같다. 구체적인 센서의 종류와 센서 응답값 수집 과정 및 실험 과정은 <Appendix A>에 설명하였다.
실제 실험 데이터는 세 가지 종류의 표준가스(Dimethyl Sulfide, Butyl Acetate, Toluene)의 배합을 다르게 하여 11개의 센서로부터 측정한 총 100개의 혼합 가스 데이터셋을 생성하였다.
2020년 태성환경연구소에서 데이터 수집및 실험을 수행하였다. 수집된 100개의 혼합 가스 데이터셋의 배합은 <Table 4>에 요약하였다. 100개의 데이터셋은 혼합 가스를 구성하는 표준가스의 종류에 따라 총 네 가지 종류의 혼합 가스로 <Table 3>과 같이 분류할 수 있다.
각각 표준 가스 주입량은 <Table 4>에 요약하였다. 예를 들면 Sample 1은 Dimethyl Sulfide가 1,000ppm, Butyl Acetate가 2,000ppm, Toluene이 1,000ppm만큼 주입된 시료이다. 괄호 안의 숫자는 샘플 생성시 주입한 표준가스의 양을 나타낸다. 실제 실험 데이터는 태성환경연구소에서 실험을 통해 생성한 센서 응답값으로 자세한 실험 과정과 샘플 데이터 수집 과정은 <Appendix B>에 설명하였다.
4.2 실험 설정
제안한 방법의 효과를 비교 평가하기 위하여, 각 데이터에 대하여 아래와 같이 네 가지의 서로 다른 실험 설정을 적용하였다.
- • Setting 1 : Original data, with Random Initialization
- • Setting 2 : Original data, with Transfer Learning
- • Setting 3 : Noise-added data, with Random Initialization
- • Setting 4 : Noise-added data, with Transfer Learning
Noise-added data는 기존 데이터(Original data)의 클래스 분균형 문제를 해소하기 위하여 가우시안 노이즈를 추가하여 과대표집(Oversampling)을 시행한 데이터를 지칭한다. 노이즈는 아래와 같은 방법으로 각 센서 응답값에 추가하였으며, 각 클래스별로 100개씩의 샘플들을 과대표집하였다.
Random Initialization은 사전 지식 전혀 없이 모델 전체를 새롭게 학습시키는 방식을 지칭한다. 따라서 학습시켜야 할 매개변수가 많다는 단점이 있다. 또한 학습 데이터가 많지 않은 경우, 특성을 추출할 수 있도록 모델을 충분히 학습시키기 어렵다는 문제점이 있다. Transfer Learning이 적용된 경우, 기존의 ImageNet 데이터의 도메인에서 학습한 사전 지식을 활용하였고 마지막 레이어만 새롭게 설계하여 학습시켰다. 모델의 전반적인 구조와 매개변수는 기존의 이미지 분류 모델에서 사전학습된 값을 활용해 미세조정을 수행하였다. 이를 통해 상대적으로 데이터의 수가 적고 다양하지 않은 상황에서도 효과적으로 모델을 학습시킬 수 있다.
전체 데이터를 60%는 학습 데이터, 20%는 검증 데이터, 20%는 테스트 데이터로 구분하였다. 이때 각 클래스별 비율을 유지시키기 위해 무작위 층화 추출법을 사용하였으며, 샘플 수를 그에 맞게 조정하였다. 또한, K-겹 교차검증을 사용하여 데이터 과적합을 방지하였다. 학습 데이터를 이용하여 각 클래스별로 분류기를 학습시켰고, 학습된 분류기를 테스트 데이터에 적용하여 그 정확도를 측정하였다. 이러한 과정을 총 5차례 반복하며 평균 분류 정확도를 기록하였다. 최종적으로 가장 우수한 모델은 균형정확도를 비교해 결정하였다. 균형정확도는 개별 클래스 별 정확도의 산술평균을 의미하며 아래와 같이 계산할 수 있다(Brodersen et al., 2010; Mosley, 2013).
C는 전체 클래스의 수, nc는 클래스 c에 속하는 샘플의 수, rc는 정확히 예측된 샘플의 수를 의미한다. 균형정확도는 데이터의 클래스별 분포가 불균형한 경우, 클래스 분포에 편향되지 않고 모델의 성능을 평가할 수 있다는 장점을 가지고 있다. 특히, 소수 클래스에 대한 가중치를 다수 클래스와 동일하게 부여하여 샘플이 적은 클래스의 예측 정확도도 균일하게 고려할 수 있다는 장점이 있다.
기존의 가스데이터 분석 접근 방법들에서는 온도와 습도를 포함한 실험 환경의 영향, 센서 간 복잡한 비선형성, 센서 응답의 무작위 노이즈 등으로 인해 가스 센서 데이터를 교정하고 표준화해야 한다. 일반적으로 센서 측정값의 평균과 같은 기준 수치의 영향을 제거하기 위해 먼저 데이터를 표준화한다. 그러나 특성 추출을 위해 합성곱 네트워크를 사용하는 경우, 이러한 단계가 필요하지 않다는 장점이 있다. 또한 별도의 센서측정값 조정(Calibration)이나 표준화(Standardization) 없이 특성을 다중 레이어 구조에 반영하여 정확도를 향상시킬 수 있는 결과를 확인 할 수 있었다.
4.3 실험 결과
우리는 제안한 방법을 UCI 데이터와 실제 데이터에 적용하여 앞에서 설정한 네가지 Setting 하에서 5겹 교차검증을 통해 검증하였다. 최종적인 모델은 균형정확도를 기준으로 결정하였으며, <Figure 3>은 클래스 별 예측 정확도와 혼동행렬(Confusion Matrix)을 보여준다.
UCI 데이터를 이용한 각 Setting마다 실험 결과는 <Table 7>에 요약하였으며, 세부적인 결과는 <Appendix C.I>에 정리하였다. 결론적으로 과대표집을 이용하여 불균형 문제를 해소한 경우가 그렇지 않은 경우보다 높은 정확도를 나타내었다. UCI 데이터의 경우, Setting 1과 Setting 2에서는 유의미한 차이를 보기 어렵지만, Setting 3과 Setting 4를 비교해보면 Transfer Learning을 적용하여 성능이 증가한 것을 확인 할 수 있다. 특히 Class 4의 경우, 원본 데이터에서는 54.55%의 정확도를 보이고 있으나, 과대표집과 Transfer Learning을 적용한 경우 그 정확도가 90.91%수준까지 증가하였다. 이는 본 연구가 제안한 방법의 효과가 있음을 보여준다.
다만, Class 5의 경우 Setting 3과 Setting 4를 비교해 보면, Transfer Learning을 사용한 경우 오히려 정확도가 약간 떨어지기도 하였다. 이는 불균형 데이터에서 교차검증 후 최종 모델을 균형정확도로 결정하였기에 나타난 현상으로 보여진다. 향후 연구에서는 테스트 데이터의 수를 늘리고 이를 개선할 수 있는 방법을 고려하고자 한다.
실제 실험 데이터를 이용한 실험 결과는 <Table 8>에 정리하였으며, 세부 결과는 세부적인 결과는 <Appendix C.II>에서 확인할 수 있다. <Figure 4>는 클래스 별 예측 정확도와 혼동행렬(Confusion Matrix)을 보여준다. 원본 데이터에서는 전반적으로 낮은 정확도를 보이고 있으며, 특정 Class를 전혀 구분하지 못하기도 한다. 이는 앞서 설명한 바와 같이 균형정확도를 우선적으로 고려하였기 때문에 나타난 결과로 여겨진다. 하지만, 실제 실험 데이터도 UCI 데이터와 같이, 제안한 방법을 적용하였을 때, 정확도가 크게 향상되는 것을 확인하였다. 일반적으로 과대표집을 이용하여 불균형 문제를 해소한 경우가 그렇지 않은 경우보다 높은 정확도를 나타내었다. 특히 Class 2는 원본 데이터에서 전혀 구분할 수 없었던 반면, 과대표집과 Transfer Learning을 적용한 경우 100%로 정확도가 크게 향상되는 것을 확인하였다.
혼합가스 분류는 검출을 목표로 하는 화학물질이 전기전도도(응답값)에 영향을 주게 되고, 이때 측정되는 응답값들이 규칙성이 적거나 비선형적으로 나타나게 된다. 이렇게 학습이 원활하게 이루어지기 어려운 상황에서, 전이학습과 과대표집을 시행하지 않는 경우에는, 해당 혼합가스의 특성이 제대로 학습되지 않아 예측 정확도가 낮았지만, 우리가 제안한 방법을 적용하였을 때, 전반적으로 예측 정확도가 향상되는 것을 확인하였다.
5. 결 론
본 연구에서는 CNN과 전이학습을 이용한 혼합 가스 센서 어레이를 유사 이미지 행렬로 변환해 분류하는 방법을 제안한다. 제안한 방법은 이미지 분류에 주로 적용되는 CNN과 전이학습을 사용해 가스 시계열 데이터의 분류에 적용하였으며, 이를 통해 적은 수의 샘플을 이용해서도 정확한 예측 결과를 보이는 모델을 개발하였다. 가스 데이터는 센서의 응답값으로 얻어지며 시간에 의존하는 시계열적인 특성을 가진다. 본 논문에서는 이러한 시계열 형태의 데이터를 유사 이미지 행렬로 변환하고, 다수의 2차원의 데이터를 입력값으로 사용하는 효과적인 모델을 개발하였다.
CNN과 전이학습을 통해 혼합 가스를 분류하는 방법은 일반적인 패턴 인식 및 분류 알고리즘과 비교해 전처리나 근사 등의 추가적인 처리 과정이 적다는 장점이 있다. 또한, 제안된 방법의 합성곱 연산은 이미지 행렬의 깊은 특징을 추출하여 혼합 가스를 보다 정확하게 분류할 수 있다. 즉, 기존의 방법들이 반영하지 못하는 여러 특징들을 깊은 신경망 구조를 통해 학습하고 이를 모델에 반영하게 된다. 한편, 가스 센서 데이터의 경우 유사 이미지 행렬이 방향 의존적 특성을 가지고 있다는 단점이 있다. ImageNet 분류와 같은 경우, 위치나 방향이 분류에 영향을 크게 미치지 않지만, 본 연구에서 사용한 이미지 전처리의 경우 위치 정보와 방향성이 중요한 특징으로 작용하고 있다. 따라서, 모델 설계 시 이와 같은 특성을 고려한 학습 모델과 분류기를 개발해야 한다.
이미지 기반의 연구는 위치 정보는 물론 색과 같은 특성 값도 모델의 성능에 영향을 미친다. 본 연구에서는 센서 별 색을 사전에 지정하는 방식을 선택하였으나, 향후 연구에서는 이를 자동화하거나 개선하고자 한다. 또한, 실제로 혼합 가스 데이터를 얻는 것이 쉽지 않기때문에, 혼합 가스 실험 과정에서 실험 계획법(Design of Experiments)을 통해 효율적으로 데이터를 수집하여 분석에 활용한다면 더욱 우수한 성능의 모델을 개발할 수 있을 것으로 기대된다.
Acknowledgments
이 논문은 2018년 대한민국 교육부와 한국연구재단의 지원을 받아 수행된 연구임(NRF-2018S1A5A2A03032736)
References
-
Bai, H. and Shi, G. (2007), Gas Sensors based on Conducting Polymers, Sensors, 7(3), 267-307.
[https://doi.org/10.3390/s7030267]
-
Barsan, N., Koziej, D., and Weimar, U. (2007), Metal Oxide-based Gas Sensor Research : How to?, Sensors and Actuators B : Chemical, 121(1), 18-35.
[https://doi.org/10.1016/j.snb.2006.09.047]
-
Bengio, Y., Courville, A., and Vincent, P. (2013), Representation Learning : A Review and New Perspectives, IEEE Transactions on Pattern Analysis and Machine Intelligence, 35(8), 1798-1828.
[https://doi.org/10.1109/TPAMI.2013.50]
-
Brahim-Belhaouari, S., Hassan, M., Walter, N., and Bermak, A. (2014), Advanced Statistical Metrics for Gas Identification System with Quantification Feedback, IEEE Sensors Journal, 15(3), 1705-1715.
[https://doi.org/10.1109/JSEN.2014.2364687]
-
Brodersen, K. H., Ong, C. S., Stephan, K. E., and Buhmann, J. M. (2010), The balanced accuracy and its posterior distribution, In 2010 20th International Conference on Pattern Recognition, IEEE.
[https://doi.org/10.1109/ICPR.2010.764]
-
Capelli, L., Sironi, S., and Del Rosso, R. (2014), Electronic Noses for Environmental Monitoring Applications, Sensors, 14(11), 19979-20007.
[https://doi.org/10.3390/s141119979]
-
Casey, J. G., Collier-Oxandale, A., and Hannigan, M. (2019), Performance of Artificial Neural Networks and Linear Models to Quantify 4 Trace Gas Species in an Oil and Gas Production Region with Low-Cost Sensors, Sensors and Actuators B : Chemical, 283, 504-514.
[https://doi.org/10.1016/j.snb.2018.12.049]
-
Chen, Z., Chen, Z., Song, Z., Ye, W., and Fan, Z. (2019), Smart Gas Sensor Arrays Powered by Artificial Intelligence, Journal of Semiconductors, 40(11), 111601.
[https://doi.org/10.1088/1674-4926/40/11/111601]
-
Cheng, L., Wang, Y., Zhang, Z., and Gao, W. (2019), Prediction of Gas Composition Obtained from Steam-Gasification of Residual Oil Using an Artificial Neural Network (ANN) Model, Petroleum Science and Technology, 37(6), 641-644.
[https://doi.org/10.1080/10916466.2018.1560324]
-
Degler, D. (2018), Trends and Advances in the Characterization of Gas Sensing Materials based on Semiconducting Oxides, Sensors, 18(10), 1-13.
[https://doi.org/10.3390/s18103544]
-
Faleh, R., Othman, M., Gomri, S., Aguir, K., and Kachouri, A. (2016), A Transient Signal Extraction Method of wo 3 Gas Sensors Array to Identify Polluant Gases, IEEE Sensors Journal, 16(9), 3123-3130.
[https://doi.org/10.1109/JSEN.2016.2521578]
- Fawaz, H. I., Forestier, G., Weber, J., Idoumghar, L., and Muller, P.-A. (2018), Transfer Learning for Time Series Classification, In 2018 IEEE International Conference on Big Data (Big Data), IEEE.
-
Fawaz, H. I., Forestier, G., Weber, J., Idoumghar, L., and Muller, P.-A. (2019), Deep Learning for Time Series Classification : A Review, Data Mining and Knowledge Discovery, 33(4), 917-963.
[https://doi.org/10.1007/s10618-019-00619-1]
-
Fonollosa, J., Rodrıguez-Luj´an, I., Trincavelli, M., Vergara, A., and Huerta, R. (2014), Chemical Discrimination in Turbulent Gas Mixtures with Mox Sensors Validated by Gas Chromatography-Mass Spectrometry, Sensors, 14(10), 19336-19353.
[https://doi.org/10.3390/s141019336]
- Gamboa, J. C. B. (2017), Deep Learning for Time-Series Analysis, arXiv preprint arXiv:1701.01887.
- Goodfellow, I., Bengio, Y., Courville, A., and Bengio, Y. (2016), Deep Learning (Vol. 1), MIT Press Cambridge, 16.
-
Greenspan, H., Van Ginneken, B., and Summers, R. M. (2016), Guest Editorial Deep Learning in Medical Imaging : Overview and Future Promise of an Exciting New Technique, IEEE Transactions on Medical Imaging, 35(5), 1153-1159.
[https://doi.org/10.1109/TMI.2016.2553401]
-
Guo, Y., Liu, Y., Oerlemans, A., Lao, S., Wu, S., and Lew, M. S. (2016), Deep Learning for Visual Understanding : A Review, Neurocomputing, 187, 27-48.
[https://doi.org/10.1016/j.neucom.2015.09.116]
-
Guo, Y., Shi, H., Kumar, A., Grauman, K., Rosing, T., and Feris, R. (2019), Spottune : Transfer Learning through Adaptive Fine-tuning, In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.
[https://doi.org/10.1109/CVPR.2019.00494]
-
Gutierrez-Osuna, R., Gutierrez-Galvez, A., and Powar, N. (2003), Transient Response Analysis for Temperature-Modulated Chemoresistors, Sensors and Actuators B : Chemical, 93(1-3), 57-66.
[https://doi.org/10.1016/S0925-4005(03)00248-X]
-
Han, L., Yu, C., Xiao, K., and Zhao, X. (2019), A New Method of Mixed Gas Identification based on a Convolutional Neural Network for Time Series Classification, Sensors, 19(9), 1-23.
[https://doi.org/10.3390/s19091960]
-
He, K., Zhang, X., Ren, S., and Sun, J. (2016), Deep Residual Learning for Image Recognition, In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.
[https://doi.org/10.1109/CVPR.2016.90]
-
Konvalina, G. and Haick, H. (2014), Sensors for Breath Testing : From Nanomaterials to Comprehensive Disease Detection, Accounts of Chemical Research, 47(1), 66-76.
[https://doi.org/10.1021/ar400070m]
-
Krivetskiy, V., Efitorov, A., Arkhipenko, A., Vladimirova, S., Rumyantseva, M., Dolenko, S., and Gaskov, A. (2018), Selective Detection of Individual Gases and co/h2 Mixture at Low Concentrations in Air by Single Semiconductor Metal Oxide Sensors Working in Dynamic Temperature Mode, Sensors and Actuators B : Chemical, 254, 502-513.
[https://doi.org/10.1016/j.snb.2017.07.100]
-
Lange, U., Roznyatovskaya, N. V., and Mirsky, V. M. (2008), Conducting Polymers in Chemical Sensors and Arrays, Analytica Chimica Acta, 614(1), 1-26.
[https://doi.org/10.1016/j.aca.2008.02.068]
-
Laref, R., Losson, E., Sava, A., and Siadat, M. (2018), Support Vector Machine Regression for Calibration Transfer between Electronic Noses Dedicated to Air Pollution Monitoring, Sensors, 18(11), 1-11.
[https://doi.org/10.3390/s18113716]
-
LeCun, Y., Bengio, Y., and Hinton, G. (2015), Deep Learning, Nature, 521(7553), 436-444.
[https://doi.org/10.1038/nature14539]
- Lee, D., Ahn, C., Kim, B., Pyo, H., Kim, J., Huh, C., and Kim, S. (2019), Intelligent Olfactory Sensor, Electronics and Telecommunications Trends, 34(4), 76-88.
-
Llobet, E. (2013), Gas Sensors Using Carbon Nanomaterials : A Review, Sensors and Actuators B : Chemical, 179, 32-45.
[https://doi.org/10.1016/j.snb.2012.11.014]
- Mosley, L. (2013), A Balanced Approach to the Multi-Class Imbalance Problem, Graduate Theses and Dissertations, Lowa State University, 1-127.
-
Park, Y.-L., Chen, B.-R., and Wood, R. J. (2012), Design and Fabrication of Soft Artificial Skin Using Embedded Microchannels and Liquid Conductors, IEEE Sensors Journal, 12(8), 2711-2718.
[https://doi.org/10.1109/JSEN.2012.2200790]
-
Peng, P., Zhao, X., Pan, X., and Ye, W. (2018), Gas Classification Using Deep Convolutional Neural Networks, Sensors, 18(1), 157.
[https://doi.org/10.3390/s18010157]
-
Persaud, K. and Dodd, G. (1982), Analysis of Discrimination Mechanisms in the Mammalian Olfactory System Using a Model Nose, Nature, 299(5881), 352-355.
[https://doi.org/10.1038/299352a0]
- Sanchez-Lengeling, B., Wei, J. N., Lee, B. K., Gerkin, R. C., Aspuru-Guzik, A., and Wiltschko, A. B. (2019), Machine Learning for Scent : Learning Generalizable Perceptual Representations of Small Molecules, arXiv preprint arXiv:1910.10685.
-
Schmidhuber, J. (2015), Deep Learning in Neural Networks : An Overview, Neural Networks, 61, 85-117.
[https://doi.org/10.1016/j.neunet.2014.09.003]
-
Tan, C., Sun, F., Kong, T., Zhang, W., Yang, C., and Liu, C. (2018), A Survey on Deep Transfer Learning, In International Conference on Artificial Neural Networks, Springer.
[https://doi.org/10.1007/978-3-030-01424-7_27]
-
Thammarat, P., Kulsing, C., Wongravee, K., Leepipatpiboon, N., and Nhujak, T. (2018), Identification of Volatile Compounds and Selection of Discriminant Markers for Elephant Dung Coffee Using Static Headspace Gas Chromatography-Mass Spectrometry and Chemometrics, Molecules, 23(8), 1-14.
[https://doi.org/10.3390/molecules23081910]
-
Varghese, S. S., Lonkar, S., Singh, K., Swaminathan, S., and Abdala, A. (2015), Recent Advances in Graphene based Gas Sensors, Sensors and Actuators B : Chemical, 218, 160-183.
[https://doi.org/10.1016/j.snb.2015.04.062]
-
Vergara, A., Vembu, S., Ayhan, T., Ryan, M. A., Homer, M. L., and Huerta, R. (2012), Chemical Gas Sensor Drift Compensation Using Classifier Ensembles, Sensors and Actuators B : Chemical, 166, 320-329.
[https://doi.org/10.1016/j.snb.2012.01.074]
-
Wei, G., Li, G., Zhao, J., and He, A. (2019), Development of a Lenet-5 Gas Identification CNN Structure for Electronic Noses, Sensors, 19(1), 217.
[https://doi.org/10.3390/s19010217]
-
Weiss, K., Khoshgoftaar, T. M., and Wang, D. (2016), A Survey of Transfer Learning, Journal of Big Data, 3(1), 9.
[https://doi.org/10.1186/s40537-016-0043-6]
-
Yamashita, R., Nishio, M., Do, R. K. G., and Togashi, K. (2018), Convolutional Neural Networks : An Overview and Application in Radiology, Insights into Imaging, 9(4), 611-629.
[https://doi.org/10.1007/s13244-018-0639-9]
-
Yan, L., Liu, J., Jiang, S., Wu, C., and Gao, K. (2017), The Regular Interaction Pattern Among Odorants of the Same Type and its Application in Odor Intensity Assessment, Sensors, 17(7), 1-13.
[https://doi.org/10.3390/s17071624]
-
Ye, J. (2019), Artificial Neural Network Modeling of Methanol Production from Syngas, Petroleum Science and Technology, 37(6), 629-632.
[https://doi.org/10.1080/10916466.2018.1560321]
-
Zhao, B., Lu, H., Chen, S., Liu, J., and Wu, D. (2017), Convolutional Neural Networks for Time Series Classification, Journal of Systems Engineering and Electronics, 28(1), 162-169.
[https://doi.org/10.21629/JSEE.2017.01.18]
-
Zhao, X., Wen, Z., Pan, X., Ye, W., and Bermak, A. (2019), Mixture Gases Classification based on Multi-Label One-Dimensional Deep Convolutional Neural Network, IEEE Access, 7, 12630-12637.
[https://doi.org/10.1109/ACCESS.2019.2892754]
Appendix
<Appendix A> UCI Data : 실험 및 데이터 수집 과정
I. 혼합 가스 측정 센서 정보
UCI 데이터는 <Appendix Table 1>과 같이 8개 센서를 통해 수집되었으며, 각각의 센서의 목표 가스와 특성을 반영하기 위해 유사 이미지의 색상 값을 지정하였다. 특히, 데이터 측정 시 사용된 MOX 가스 센서값은 반도체 산화막의 저항값 변화에 따라 반응값이 달라지고, 이때 반도체의 산화막은 가스 분자에 반응한다. 따라서, 혼합 가스의응답값은 단순히 개별 가스의응답값의 선형 결합으로 나타낼 수 없으며, 원하는 가스의 종류와 농도를 정확하게 예측하기 위해서는 앞서설명한 혼합 가스 고유의 특성을 반영할 수 있어야 한다.
Ⅱ. 센서 응답값 수집 및 실험 방법
UCI 데이터는 Carbon Monoxide(CO), Methane, Ethylene 세 종류의 가스를 활용하고, 실험 환경은 두 개의 가스 배출구가 있다. 한 개의 주입구에서는 2500ppm의 Ethylene 을 배출하고, 나머지 주입구에서는 1000ppm의 Methane과 4000ppm의 CO를 배출한다. 각 배출 속도를 변화시키고 배출된 가스들은 터빈을 통해 뿌려져서 바람에 날려간가스들이 센서에 닿았을 때는 다양한 농도의 혼합 가스가 된다. 실제 생성된 혼합 가스는 <Appendix Table 2>와 같은 다섯 개의 클래스로 구분된다.
이때 각가스의 농도 N,L,M,H 값은 <Appendix Table 3>과 같다.
<Appendix B> Real Data : 실험 및 데이터 수집 과정
I. 혼합 가스 측정 센서 정보
본 논문에서 사용한 데이터는 태성환경연구소의 데이터로 <Appendix Table 4>에서 볼 수 있듯이 총 11 개의 가스 센서 어레이를 통해 수집되었다. MOX 타입의 센서가 2개, NDIR 타입의 센서가 1개, Electronichemical 타입의 센서가 8개로 이루어져 있다. NDIR 센서는 적외선을 통해 가스 분자를 인식한다. 적외선이 가스 분자에 의해 흡수 되었을 때 특정 파장에서 가스 분자를 진동 시킨다. Electronichemical 센서는 감지하고자 하는 가스가 내부 센서에 들어왔을 때 산화 또는 환원 반응을 일으켜 측정을 한다.
Ⅱ. 센서 응답값 수집 및 실험 방법
태성환경연구소의 데이터는 Dimethyl Sul.de, Butyl Acetate, Toluene 세 종류의 표준 가스의 주입량을 달리하여 만들어졌다. 아래의 식과같은 방식으로 각 10,000ppm 농도의 표준 가스를 만든다.
Vi는 가스 주입량(Injection Volume), Ct는 목표 농도(Target Concentration), Vt는 목표 부피 (Target Volume), wm은 주입 가스의 원자량 d는 주입 가스의 밀도(Density), p는 주입 가스의 순도(Purity)를 나타낸다. 목표로 하는 혼합기체의 농도와 부피에 맞춰 가스를 주입하였으며 아래와 같은 <Appendix Table 5>의 수치로 실험을 진행하였다.
위와 같은 과정으로 생성된 표준가스 1ml = 0.001l와 질소 10l를 혼합해서 1ppm의 혼합 가스를 만들 수 있으며, 여러 표준 가스를 사용해 각각 혼합 농도의 비율이 다른 혼합 가스를만들 수 있다. 총 4개 클래스의 100개 샘플을 수집하였으며, 각각 표준 가스 주입량은 <Appendix Table 6>과 같다. 예를 들면 Sample 1은 Dimethyl Sulfide 가 1,000ppm, Butyl Acetate가 2,000ppm, Toluene 이 1,000ppm만큼 주입된 시료이다.
<Appendix Table 7>과 같이 생성된 100개의 샘플을 주입량의 비율에 따라 4개의 클래스로 분류하였으며, 각 클래스의 특성과 숫자는 <Appendix Table 7>와 같다. 괄호 안의 숫자는 샘플 생성시 주입한 표준가스의 양을 나타낸다.
<Appendix C> 분석 모델 세부 결과
I. UCI Data
Ⅱ. Real Data
오용경 : 울산과학기술원 물리학과에서 2015년 학사학위를 취득하고 울산과학기술원 기술경영전문대학원에서 2017년 기술경영학 석사를 취득했으며 현재는 울산과학기술원 산업공학과 박사과정에 재학중이다. 연구분야는 기계학습 및 딥러닝 기술을 활용한 분석 기술과 이를 이용한 산업인공지능, 이상감지, 예측 시스템 개발이다.
김남우 : 울산과학기술원 경영학과에서 경영공학을 융합전공으로 2020년 학사학위를 취득하고 울산과학기술원 데이터 분석 연구실에서 Constraint satisfaction problem, Clustering, Data Mining 연구를 했다. 현재 연구분야는 기계학습 및 딥러닝 기술을 활용한 분석 기술과 이를 이용한 인공지능 응용 분야이다.
김성일 : 연세대학교 정보산업공학과에서 2005년 학사, Georgia Tech에서 2007년 산업공학 석사, 2011년에 산업공학 박사 학위를 취득하였다. 미국 Terra Technology와 삼성 SDS에서 연구원을 역임하고, 2016년부터 울산과학기술원 산업공학과 교수로 재직 중이다. 연구 분야는 산업통계, 품질 공학, 산업 인공지능이다.