
선박 메인 엔진의 이상 탐지와 원인 규명: 내부 센서 및 외부 환경 요인을 고려한 설명 가능한 인공지능 기반 방법론
© 2023 KIIE
Abstract
The main engine of a ship plays a crucial role in providing propulsion. In recent times, there has been growing interest in a data-driven monitoring approach that utilizes sensor data to complement the preventive maintenance-centered maintenance strategy. Previous studies have proposed methodologies that apply anomaly detection algorithms to the sensor data within the main engine. However, these methodologies have limitations as they only focus on analyzing internal sensor data and fail to consider external factors such as operating conditions, marine environment, and weather. Additionally, the use of black-box approaches makes it challenging to determine the specific factors causing anomalies. To address these limitations, this study introduces a method that employs Explainable Artificial Intelligence (XAI) techniques to identify the causes of anomalies in ship main engines. The proposed method involves calculating anomaly scores using Variational AutoEncoder on collected sensor data and training a separate model to predict anomaly scores by considering external factors like operating conditions and weather. Furthermore, the SHAP (Shapley Additive Explanations) technique is utilized to quantify the contributions of external factors to the anomaly scores. This enables the analysis of individual data features and facilitates both local and global analysis for identifying the causes of anomalies and diagnosing faults. The proposed methodology was validated through a case study using data collected from a container ship over an 18-month period, demonstrating its effectiveness in identifying the causes of anomalies in the ship’s main engine.
Keywords:
Vessel Main Engine, Anomaly Detection, Explainable AI, Root-cause Analysis1. 서 론
선박 메인 엔진은 선박의 추진력을 제공하는 중요 기관이며, 항공기와 달리 선박의 경우 한번 출항하면 긴 시간 동안 바다를 항해해야 하므로, 운항 중 선박 엔진 고장은 매우 큰 경제적 손실을 초래한다(Kim et al., 2020a). 현재 대부분의 선사에서는 메인 엔진의 유지보수를 위해, 예정된 일정에 따라 부품 교체 및 정비작업을 수행하는 예방적 유지보수(preventive maintenance) 방식을 사용한다. 이 방식은 시스템의 상태에 관계없이 유지보수 활동을 수행하기 때문에 불필요한 유지보수 비용과 자원의 낭비가 발생할 수 있으며 실제로 문제가 발생하기 까지 잠재적 고장을 감지하지 못할 위험이 존재한다(Deris et al., 1999).
이 같은 예방적 유지보수 활동을 보완하기 위한 방법 중 하나로 데이터 기반의 메인 엔진 모니터링 방식이 대두되고 있다. 이 방식은 선박 메인 엔진에 부착된 센서로부터 진동, 온도, 압력, 윤활유 상태 등과 같은 다양한 데이터를 수집하고, 머신 러닝 기법을 활용하여 정상작동 범위를 벗어난 이상을 탐지하는 것을 핵심으로 한다. 이 방식은 실시간으로 시스템의 상태를 진단할 수 있으므로 문제를 조기에 감지하고 잠재적인 장애나 시스템 고장의 위험을 줄일 수 있게 된다. 선박 메인 엔진의 경우 대게 정상작동 상태에서 수집되므로, 고장이나 이상을 가리키는 레이블이 없다. 따라서 대부분의 선행연구들은 수집된 메인 엔진 센서 데이터에 비지도학습 기반의 이상탐지 알고리즘을 적용하여 이상여부를 모니터링 하는 기법을 제시하였다(Kim et al., 2022; Kim et al., 2020a; Kim et al., 2020b).
기존의 연구들을 통해 선박 메인 엔진의 데이터 기반 이상탐지가 기능해졌지만, 여전히 두 가지 한계점이 존재한다. 첫째, 대부분의 연구가 이상탐지를 수행함에 있어 외부 환경변수의 영향을 고려하지 않았다는 점이다. 선박은 환경 및 운항 요인에 영향을 받기 때문에 메인 엔진의 결함을 정확히 진단하기 위해서는 선박이 처한 환경과 운항 요인을 고려해야 한다. 그러나 선행 연구들인 Kim et al.(2021), Kim et al.(2020a), Kim et al.(2020b)은 엔진 이상상태 진단에 있어 내부 센서 데이터만을 활용하였으며, 외부 환경요인을 고려하기 위해서는 별도의 분석이 필요하다. 둘째, 이상탐지의 원인을 규명하기 위한 설명가능한 모델이 부재하다는 점이다. 대부분의 선행연구에서 모델 내부의 의사결정과정을 파악하기 어려운 블랙박스(black box) 모델이 사용되고 있어, 이상탐지의 원인을 명확히 규명하기 어렵다는 단점이 존재한다. Kim et al.(2021)은 이상탐지 모델에 설명가능한 인공지능(XAI)기법을 적용하여 이상치 발생에 기여한 센서를 정량적 분석으로 찾아내는 프레임워크를 제안하였다. 하지만, 해당 연구는 이상탐지 과정에서 외부환경 요소 및 운항요소를 고려하지 않았다는 한계가 존재한다.
이 같은 선행 연구의 한계를 극복하기 위하여 본 연구에서는 외부 환경 및 운항 요인의 영향을 고려하여 이상상태의 잠재 원인을 분석하는 방법론을 제안하고자 한다. 제안하는 방법론은 크게 세 단계로 구성되어 있다. 첫 번째 단계는 이상탐지 단계로, 메인엔진 내부의 센서만을 이용하여 메인엔진의 이상 상태를 탐지한다. 이를 위해 18개월 동안 수집된 선박 센서 데이터에 딥러닝 기반의 이상탐지 모델인 Variational AutoEncoder(VAE)를 학습하여 이상치 점수를 산출하였다. 그 다음으로, 전 단계에서 계산된 이상치 점수를 종속변수로 하고, 이상상태에 영향을 줄 것으로 예상되는 외부환경 요소 및 운항변수를 독립변수로 하는 회귀모형을 별도로 학습하여 외부요인으로 이상치를 예측할 수 있는지 살펴본다. 마지막으로, 설명가능한 인공지능 기법을 이전 단계에서 얻어진 회귀모형에 적용하여 이상치 점수에 대한 외부 요인들의 기여도를 정량화한다. 본 연구에서는 SHAP(Shapley Additive Explanation)을 적용해 개별 데이터의 특성 별 기여도를 파악하고 이를 통해 Local 분석과 Global 분석을 실시하여 이상치에 대한 원인 규명 및 진단을 수행한다.
이 프레임워크는 이상치 분석에 메인 엔진뿐만 아니라 외부 환경 및 운항 요인의 영향을 고려하므로 선박이 처한 환경을 반영하여 고장의 잠재원인에 대한 진단이 가능하다. 이를 통해 원인규명이 되지 않았던 기존 유지보수의 문제점을 해결할 수 있을 것이라 기대하며, 이를 선박관리자가 활용하여 구간 별로 적절한 조치를 취한다면 선박 유지 보수 및 운항 효율성을 증진시킬 뿐만 아니라 비용 절감을 실현할 수 있을 것이라 기대한다.
본 논문의 구성은 다음과 같다. 제2장에서는 관련된 선행 연구를 살펴보고, 제3장에서는 본 연구에서 제안된 방법론에 대해 설명한다. 제4장에서는 본 연구에서 사용된 데이터에 대해 살펴본 후 데이터 전처리와 제안 방법론을 통한 이상 탐지 결과 및 SHAP 분석을 통한 이상치 원인을 규명한다. 마지막으로 제5장에서는 결론 및 시사점을 요약하고 향후 연구에 대해 제시한다.
2. 선행 연구
2.1 딥러닝 기반 이상탐지 알고리즘
이상치 탐지 알고리즘은 분포 기반, 재구성 기반, 분류 기반의 세 가지 범주로 구분된다(Aggarwal, 2017). 분포 기반 이상치 탐지는 이상치가 정상 데이터에 비해 낮은 확률로 발생한다는 특성을 기반으로 하는 방법론이다. 이 방법은 정상 샘플의 분포를 모델링 하는 것을 목표로 한다. 재구성 기반 이상치 탐지는 샘플의 재구성에 의존하는 기법이다. 정상 샘플은 재구성 함수를 사용하여 잘 재구성될 수 있지만, 이상치는 노이즈로 인해 재구성이 어려워 재구성 오차가 이상치 점수로 사용된다. 재구성 오차가 큰 데이터 포인트는 이상치로 정의된다(An and Cho, 2015). 분류 기반 이상치 탐지는 우수한 특징 공간을 학습하여 정상치가 포함된 영역과 그렇지 않은 영역을 분리하는 것을 목표로 한다(Bergman and Hoshen, 2020). 데이터의 라벨링 유무와 규모에 따라 이상치 탐지 기법은 지도, 반지도, 비지도 학습기법 중 하나를 선택할 수 있다. 그러나 대규모 라벨링 된 이상치 데이터셋의 수집을 필요로 하는 지도 학습은 도메인 전문가의 수작업과 많은 시간과 비용이 소요되어 완전한 지도 학습 기반의 이상치 탐지는 현실적으로 어려움이 따른다(Pang et al., 2022). 이러한 문제를 해결하기 위해 최근 연구는 널리 적용 가능한 비지도 학습 기반 이상치 탐지 기법에 초점을 두고 있다. 이러한 기법들은 이상치에 대한 사전 정보는 없지만, 테스트 데이터에는 정상 인스턴스가 이상치보다 훨씬 더 빈번하게 발생한다는 암묵적인 가정을 따른다.
딥러닝은 이상탐지 분야에서 활발히 활용되는 기법 중 하나이다. 딥러닝은 데이터의 이상탐지에서 필수적으로 요구되는 복잡한 비선형 패턴을 파악하는데 탁월한 성능을 가졌을 뿐만 아니라, 다양한 종류의 데이터(이미지, 음성, 시계열, 자연어)의 이상탐지 상황에서 사용될 수 있으며 유연한 모델구조를 통해 복잡한 데이터 패턴을 학습할 수 있어 이상탐지에서도 널리 사용되고 있다. Hinton and Salakhutdinov(2006)에서 제안한 오토인코더(AutoEncoder, AE)는 가장 널리 사용되는 방식 중 하나로, 인코더를 사용하여 고차원 데이터의 잠재적인 패턴을 저차원으로 축소하고, 디코더를 통해 원래의 차원으로 데이터를 재구성한다. 원 데이터와 재구성된 데이터 사이의 오차가 크다면, 해당 데이터는 오토인코더가 학습한 데이터의 정상분포에서 벗어나므로, 이상치로 구분된다. Goodfellow et al.(2014)가 제안한 생성적 적대 신경망(Generative Adversarial Networks, GAN)도 이상탐지에서 활발하게 사용되고 있다. GAN은 생성자와 판별자라는 두 개의 신경망이 경쟁하며 학습하여 점점 실제 데이터와 비슷한 데이터를 생성하는 기법인데, 이상탐지에 사용되는 GAN은 정상 데이터로 학습된 생성자를 통해 생성된 데이터와 실제 데이터를 판별자에게 비교하여 이상치를 감지한다. GAN은 이미지 등의 멀티미디어 데이터의 이상탐지분야에서 활발하게 사용되고 있지만 모델을 충분하게 수렴시키는데 필요한 데이터의 양이 많다는 단점이 존재한다(Pang et al., 2021). 이 같은 생성모델 기반의 딥러닝 구조를 시계열구조와 결합한 연구들도 다수 존재하는데 LSTM-AE(Malhotra et al., 2016), LSTM-VAE-GAN(Niu et al., 2020), TadGAN(Gaier et al., 2020) 등이 존재한다. 또한 딥러닝 구조는 기존의 이상탐지모형과 결합을 통해 성능향상을 꾀하는데 역시 활용되고 있는데 대표적으로 DeepSVDD(Ruff et al., 2018)가 있다. 이는 One-Class Support Vector Machine(OCSVM)의 딥러닝 확장으로, 정상데이터를 하나의 클래스로 간주하고 이를 가장 잘 표현하는 하이퍼구체를 찾아 나가는데 딥러닝 구조를 활용한다. 해당방법론은 준지도학습과 결합되거나(Ruff et al., 2019), 이미지 이상탐지에서의 설명가능성을 확보하는 등(Liznerski et al., 2020) 다양한 방향으로 발전되었다. 딥러닝 기법을 활용한 이상탐지 기법에 대한 보다 자세한 문헌조사는 Pang et al.(2021)을 참고할 수 있다.
2.2 선박 센서데이터 이상치 모니터링 기법
데이터 기반 선박 모니터링에 대한 이상적인 접근 방식은 실제 엔진 고장 유무에 대한 레이블이 존재하는 데이터를 활용하는 것이다. 하지만 실제로 엔진 고장은 극히 드물게 발생하므로 이러한 데이터를 수집하는 데에는 어려움이 따른다. 따라서 많은 선행연구들이 메인 엔진 내부의 부품 상태 간의 관계를 수리적 모델을 통해 엔진 상태를 시뮬레이션 하고, 여기에서 발생하는 데이터를 활용한 고장상태 분류모델을 제안한다. Kowalski et al.(2017)은 선박용 4행정 디젤 엔진으로부터 정상 작동 외에 14개의 결함조건으로 구성된 데이터셋을 생성하여 고장 분류를 수행하는 기계학습 모델을 채택했다. Cipollini et al.(2018)은 네 가지 엔진 구성 요소인 가스터빈, 가스터빈 압축기, 선체, 프로펠러의 부식 과정에 따른 여러 센서 값을 생성하여 데이터셋을 구성하고 부식 지수를 예측하기 위한 간단한 지도학습 기반 회귀 모델을 채택했다. Cipollini et al.(2018), Tan et al.(2020)은 동일한 데이터셋을 활용하여 분류 기반 접근 방식을 제안하고, 여러 분류 알고리즘의 정확도를 비교했다. 그러나 시뮬레이션 데이터셋을 생성하려면 시스템의 복잡한 물리적 모델링이 필요하기 때문에 비용이 많이 든다. 또한, 물리적 모델은 특정한 해상환경과 운항 시나리오를 가정하므로, 실제 운항에서 발생하는 다양한 패턴을 반영할 수 없다는 단점이 존재한다(Kowalski et al., 2017).
사물인터넷 기술의 급부상과 데이터 수집이 가능해지면서 최근에는 실제 운용된 선박에서 수집된 메인 엔진 센서데이터를 이용한 이상탐지 기법들이 활발히 연구되고 있다. 앞서 언급한대로, 실제 선박 운영에서는 메인 엔진의 고장이 매우 드물게 발생하므로 정상 및 이상상태에 대한 레이블이 존재하지 않는 경우가 대부분이다. 따라서, 대부분의 연구는 비지도학습 기반의 이상탐지 모델의 개발에 초점을 두고 있다. Raptodimos and Lazakis(2018)는 인공 신경망 기반 클러스터링 기법 중 하나인 자기조직화 맵(Self-Organizing Map)을 이용하여 해상 엔진 상태의 군집분석을 통해 이상상태를 파악하는 방법론을 제안하였다. Vanem and Brandsæter(2021)은 메인 엔진 데이터에 대한 클러스터링 기반 방법론 간의 비교분석을 수행하였다. 또한 Lazakis et al.(2019)은 SVM 기반의 단일 클래스 접근법인 OCSVM을 활용한 기법을 제안하였다. Kim et al.(2020a)은 Gaussian Mixture Model(GMM) 기법을 활용하여 이상 탐지를 수행했다. Kim et al.(2020b)은 7가지 비지도 학습 기반 이상 탐지 알고리즘을 적용한 후 이를 앙상블하여 이상 탐지를 수행하고 이상치에 대한 클러스터링 분석을 수행하여 이상치의 원인을 규명하려고 시도했다. Cheliotis et al.(2020)은 실린더 배기가스 온도를 종속변수로 하고 운항변수와 메인 엔진의 다른 센서 값을 입력 값으로 하는 다항회귀 모형을 만들고, 예측되는 값과 실제 센서 값의 잔차의 시계열 분석을 통해 이상탐지를 수행하는 방법론을 제안하였다. 이와 유사하게 Boullosa et al.(2017) 및 Capezza et al.(2019)은 통계적 품질관리도의 개념을 적용하여 엔진 센서 값의 이상치를 모니터링하는 기법을 제안하였다. 최근 연구에서는 메인 엔진 이상탐지를 위해 딥러닝을 이용한 이상탐지 기법이 소개되고 있다. 예를 들어 Ellefsen et al.(2020)은 VAE, Kim et al.(2022)은 시계열을 고려한 LSTM-AE 기반의 방법론, 그리고 Velasco-Gallego와 Lazakis(2022)는 LSTM-VAE 기반의 방법론을 제안하였다.
2.3 설명가능 인공지능 기법을 활용한 이상치 분석
2.2절에서 살펴본 바와 같이 선박 메인 엔진의 이상탐지를 위한 비지도학습 기반의 다양한 방법론이 제안되었지만, 대부분의 연구가 블랙박스 모델을 활용한 이상치 탐지에 집중하여, 이상치 발생에 기여한 센서의 파악이나, 원인규명과 같은 추가적인 분석에 이르지 못했다는 한계가 존재한다. 이러한 한계를 극복하기 위해 이상 탐지에 설명가능한 인공지능 기법을 적용한 연구가 존재한다. Park et al.(2020), Wang et al.(2020), Wong et al.(2021)은 각각 네트워크의 사이버 보안 시스템에서 사용되는 침입 탐지 시스템, 난방 시스템의 에너지 효율 예측과 의료 분야인 암 예측에 SHAP를 적용하였다. 그 중에서도 특히 Kim et al.(2021)은 선박 도메인에서 메인 엔진 이상 탐지에 SHAP을 적용한 첫 번째 시도였다. 이를 위해 메인 엔진 데이터를 활용하여 비지도 학습 기반 이상 탐지를 수행하고 SHAP을 적용한 후 각 센서 별 기여도를 의미하는 SHAP Value를 활용하여 클러스터링 분석을 수행해 감지된 이상치 클러스터별로 어떠한 패턴이 존재하는지를 파악했다. 그 결과 기존 연구의 한계점이었던 이상치에 대한 센서 별 기여도를 SHAP Value를 통해 정량화 하였고, 이를 활용한 클러스터링 방법론을 제안하여 그 효과성을 입증하였다. 그러나 이상 탐지에 있어서 메인 엔진 변수만을 활용했다는 점에서 선박 운항에 직접적으로 영향을 주는 외부 요인들을 고려하지 못했다는 한계가 있다.
본 연구에서는 선박 메인 엔진에 대한 이상 탐지를 수행하고, 외부 요인을 통해 이상치 점수를 예측한 후에 예측모델에 SHAP를 적용하여 이상치 별로 어떠한 패턴이 존재하는지를 파악하였다. 이로 인해 Kim et al.(2021)에서 반영하지 못한 선박이 처한 환경을 고려한 분석을 수행하여 이상치의 잠재적인 원인을 보다 자세하게 규명했다는 부분에서 큰 차이가 있다.
3. 연구 방법론
3.1 연구 절차
본 논문에서 제안하는 연구 절차는 크게 데이터 전처리, 메인 엔진 변수를 사용하여 VAE를 활용한 이상치 점수 계산, 운항 및 환경 변수를 사용하여 앙상블 기반의 Regressor를 활용한 이상치 점수 예측, treeSHAP를 통한 SHAP 기여도 산출, 이상치 세분화, SHAP Value를 토대로 한 선박이 처한 환경 파악 및 메인 엔진의 고장을 진단하는 단계로 이루어지며, 전체 프레임워크는 <Figure 1>과 같다.
3.2 VAE를 통한 비지도 학습 기반 이상치 탐지
우선 메인 엔진의 이상상태 탐지를 위해 메인 엔진 내부 센서 데이터를 활용하여 이상탐지 모델을 학습하였다. 본 연구에서는 이상탐지 기법으로 Kingma and Welling(2014) 이 제안한 Variational AutoEncoder(이하 VAE)를 사용하였다. VAE는 AE의 변형으로, 저차원인 잠재변수를 평균과 분산을 가진 확률분포로 모델링하고, 확률분포에서 샘플링된 난수로부터 다시 디코더를 사용한 재구성을 수행한다. VAE의 구조와 손실함수가 <Figure 2>에 자세히 서술되어 있다. VAE는 손실함수에서 재구성 오차와 함께 KL 발산을 이용한 정규화 항(regularization term)을 통해 잠재공간이 정규분포에 가깝도록 유도한다. 이 같은 VAE의 특성은 데이터의 불확실성에 강건하고, 원 데이터의 잠재공간을 더 매끄럽게 구조화하여 과적합 문제를 피할 수 있는 것으로 알려져 있다. VAE에서 입력 데이터의 이상치 점수는 AE와 마찬가지로 입력된 데이터와 재구성된 데이터 사이의 유클리디안 거리로 계산된다. 본 논문에서 대상으로 하고 있는 엔진 센서 데이터는 이미지나 시계열에 비하여 단순하고 특성의 수가 비교적 작은 정형 데이터로, 복잡한 모델이 오히려 과적합을 일으킬 위험이 있다. 또한 VAE는 AE에 비하여 불확실성에 강건하고 과적합을 구조적으로 막는 특성을 가지고 있어 본 연구에 적절한 모델로 선정하였다.
3.3 앙상블 기반의 기계학습을 활용한 이상치 점수 예측
본 연구의 목적은 선박 메인 엔진의 이상상태에 대한 외부 요인의 인과관계가 있는지를 파악하고, 그 영향력이 어느 정도인지를 파악하는 데에 초점을 맞추고 있다. 이 같은 목적을 달성하기 위한 한 가지 접근법 중 하나는 외부요인과 내부요인을 함께 고려하여 이상탐지를 수행하는 방식을 생각해 볼 수 있다. 예를 들어 Kim et al.(2022)은 내부센서 데이터와 외부 환경변수 중 일부를 함께 고려한 이상탐지 모형을 제안하였다. 하지만 이렇게 종합적인 요소를 모두 고려하면 변수 추가로 인한 모델의 복잡성이 증가하고, 메인 엔진 자체로는 큰 문제가 되지 않지만 외부 환경요인으로 인해 이상상황으로 간주되는 등 불필요한 상황이 이상상태로 탐지될 가능성이 존재한다.
이 같은 불필요한 분석을 줄이고, 엔진 이상상태와 외부 요인간의 상호작용을 보다 명확하게 측정하기 위해 본 연구에서는 내부요인을 통해 이상상황을 먼저 식별한 후, 외부요인이 이러한 이상치에 어떤 영향을 미치는지 분석하는 단계적 접근법을 제안한다. 본 연구에서는 이전 단계에서 계산된 메인 엔진의 이상치 점수를 종속변수로 하고 환경 및 운항 요인을 사용해 이를 예측하는 방식을 제안한다. 이상치 점수 예측 모델로는 4가지 트리 기반의 앙상블 기법인 Random Forest(RF) Breiman(2001), XGBoost(eXtreme Gradient Boosting, XGB) Chen and Guestrin(2016), LightGBM(Light Gradient Boosted Machine, LGBM) Ke et al.(2017), CatBoost(Category Boosting, CatBoost) Prokhorenkova et al.(2018)을 활용하였다. 위 모델들은 모두 빠른 학습 속도와 과적합을 보정하며, 높은 메모리 효율성과 예측 성능을 제공하기 때문에 다양한 분야에서 널리 활용된다. 일반적으로 앙상블 기반 머신 러닝 기법들은 적절한 파라미터 선택이 최적의 성능을 도출할 수 있음이 입증되었으므로 Bentéjac et al.(2021), 본 연구에서는 GridSearchCV를 활용하여 각 모델별로 하이퍼 파라미터 튜닝을 수행하고, 회귀 모델 성능 평가에 주로 사용되는 MSE, RMSE, MAE, MAPE, R2를 사용하여 위 4가지 모델들의 성능을 비교하였다.
3.4 SHAP을 통한 이상치 발생원인 규명
본 연구 프로세스의 마지막 단계는 외부요인 각각의 이상치 점수에 대한 기여도를 정량화 하는 것이다. 이를 위해 이전 단계에서 학습된 이상치 점수 예측모델에 설명가능한 인공지능 기법 중 하나인 SHAP(Shapely Additive Explanation)을 적용하여 환경 및 운항 요인이 이상치 점수에 기여한 영향도를 계산하였다.
SHAP은 Lundberg and Lee(2017)에 의해 제안된 방법론으로 게임이론에서 제안된 개념인 Shapely Value를 기반으로 한 변수 중요도 계산 방법으로, 다수의 플레이어가 협력하여 어떤 가치를 만들어내는지 정량화 하는데 사용되는 개념인 Shapely Value를 머신러닝에 적용하여 각 특성이 모델의 예측에 어떻게 기여하는지 정량화 하는 기법이다. SHAP은 Shapely Value의 특성을 가지면서도 예측 값이 개별 특성의 기여도의 선형 합으로 분해될 수 있도록 하는 좋은 성질을 가졌다. SHAP은 기본적으로 Model Agnostic(모델 불특정) 해석 기법으로 어떤 모델이든 상관없이 적용 가능하지만, 대규모 데이터셋의 경우 계산 시간이 오래 소요된다는 특징이 있다. 하지만 트리구조를 가진 머신러닝 모형의 경우 TreeSHAP Lundberg et al.(2018)를 사용하여 계산 시간의 단축이 가능하다. 본 연구에서는 회귀 모형으로 모두 앙상블 트리모형을 사용했으므로 SHAP Value 계산을 위해 TreeSHAP을 사용하였다. 이 같은 과정을 통해 환경 및 운항 변수가 이상치 점수에 기여한 영향도를 파악하고, 이상치로 탐지된 구역의 로컬 영향도 분석 및 전체적인 글로벌 영향도를 파악하였다. 영향도 분석을 위해 절대 평균 SHAP Value(Absolute mean of SHAP value)를 사용하여 변수의 중요도를 평가하였다.
이를 활용하여 전체 인스턴스와 이상치로 탐지된 구역에 대한 변수 별 절대 평균 SHAP Value를 비교하여 이상치 구역에서 어떤 환경 및 운항변수가 큰 영향을 미쳤는지를 분석하고, 이상치 인스턴스와 전체 인스턴스 간의 환경, 운항 및 메인 엔진 내부 센서들의 평균치를 비교하고 이를 시각화 하여 메인 엔진의 결함을 진단하였다. 글로벌 영향도 분석에는 SHAP에 내장된 Plot인 Summary Plot과 Dependence Plot, Partial Dependence Plot(PDP)을 활용하였다.
4. 실 험
4.1 데이터 소개
사례연구로 실제 선사에서 운영하는 선박을 대상으로 메인 엔진의 이상탐지 및 원인규명 작업을 수행하였다. 대상 선박은 18만 톤급 대형 컨테이너 벌크선으로 2020년 1월부터 2021년 6월까지 18개월 이상 운항하면서 수집된 센서 데이터를 활용했다. 이들 센서는 선박의 GPS 위치, 속력, 풍속, 흘수 등의 운항 및 환경 정보와 메인 엔진, 발전기, 보조기기와 같은 선박 추진에 필요한 기관 장비의 운전 상태를 실시간으로 모니터링 할 수 있다. 해당 선박은 한국, 중국, 대만, 베트남, 태국 등 일부 아시아 국가를 횡단하는 총 24회의 항해를 수행했으며, 선박의 제원과 주요 항해 경로는 각각 <Table 1>과 <Figure 3>에 표시되어 있다.
선박의 운항에 있어 수온, 계절별 흘수 등의 외부환경요인은 계절에 크게 영향을 받는데, 본 연구에서는 18개월 동안 수집된 데이터를 사용하였으므로 해상에서 발생하는 계절적인 요인의 변동을 충분히 반영했다고 볼 수 있다. 또한 해당 선박은 화주의 요구에 따라 수시로 항로가 변경되는 벌크선으로 데이터 수집기간동안 24회의 빈번한 항해를 수행하면서 다양한 운항환경에 노출되어 이상탐지를 수행하기에 충분히 방대한 데이터가 수집된 것으로 평가되었다. 또한 본 연구에서 수집된 데이터는 선행연구와 비교하여 데이터의 수집기간이 충분히 길다고 볼 수 있다.
해당 선박의 원본 데이터셋의 크기는 총 151개의 열과 89,297개의 행이지만 본 연구에서는 관련 전문가와의 인터뷰를 토대로 메인 엔진에 직접적으로 영향을 주는 주요 메인 엔진 관련 센서 21개와 선박 운항에 직접적으로 영향을 미치는 주요 환경 및 운항 센서 20개를 선별하여 활용하였으며, 해당 센서 목록은 각각 <Table 2>와 <Table 3>에 정리되어 있다.
4.2 데이터 전처리
메인 엔진의 이상치 탐지를 수행하기에 앞서 데이터 전처리를 수행했다. 우선, 센서에 오류가 있는 경우에는 -9999 혹은 9999로 값이 기록되어져 있어 각 변수 별로 이러한 결측치를 포함하는 인스턴스 26,136개를 제거해주었다. 또한, 선박은 비행기나, 화물 트레일러와 같은 여타 운송수단과 달리 정속 운항을 기본으로 하므로 데이터 자체의 변동이 크지 않으며, 정박과 운항을 반복한다. 따라서 운항 상태일 때의 데이터에 대해서만 이상치 탐지를 수행하기 위해 데이터 필터링을 수행해야 한다. 이를 위하여 도메인 전문가와 인터뷰를 진행한 결과 해당 선박은 속력이 15 노트 이상이며, 엔진 부하의 85%에 해당하는 80.75 RPM 이상을 메인 엔진의 NCR(Normal Continuous Rating)인 안정적인 운항 상태로 판단할 수 있다는 의견에 따라 해당 범위 이상의 데이터만을 추출하였다. 그 결과 기존 89,297개의 행에서 27,041개 행의 데이터가 추출되었다.
결측치 제거 및 데이터 필터링 이후에는 몇 가지 데이터 변형을 수행하였다. 첫 번째로 흘수(Draft)와 관련된 변수에 대한 변형을 수행하였다. 흘수는 해양 공학 전문 용어로 선수(DF), 선미(DA), 좌현(DP), 우현(DS) 등에서 측정한 수면선과 선체 바닥 사이의 수직거리를 나타내며, 해당 값이 크다는 것은 특정 방향으로 선박이 기울어져 있음을 의미한다. 선박의 전체적인 기울기와 관련한 지표를 생성하기 위해서 4개 흘수 값의 평균인 AvgDraft와 선수로부터 선미로 향하는 수직방향 기울기와 관련한 지표인 Trim, 좌현으로부터 우현으로 향하는 수평방향 기울기와 관련한 지표인 Heeling을 다음과 같이 생성하였다.
(1) |
(2) |
(3) |
두 번째로 선박은 바람 및 파도 등 외부 요인에 의해 선박의 방향과 실제로 나아가는 방향(COG) 사이의 차이가 발생하므로 이를 나타내는 해양공학적 지표인 Leeway를 다음과 같이 생성하였다.
(4) |
마지막으로 선박의 방향(Ship Heading), 조류(Current), 풍파(Wind Wave), 너울성 파도(Swell Wave), 바람(Wind), 겉보기 바람(Rel Wind)의 방향을 의미하는 Direction 변수들은 0°-360° 의 범위를 갖고 있는데 선박이 나아가는 방향을 기준으로 각 요인들이 주는 절대적인 영향력을 파악하기 위해서 선박의 방향과 각 요인의 방향 값의 차이의 절대값인 ANGLE 변수로 변환하였으며, 해당 변수들은 모두 0°~90°사이의 범위를 갖도록 조정하였다. <Figure 4>와 <Table 4>에 그 절차가 제시되어 있다.
데이터 전처리 후 최종 데이터셋은 총 27,041개의 행과 39개의 열로 구성되며, 이상치 탐지에 활용할 엔진 관련 변수 21개의 목록은 <Table 2>에 이상치 점수 예측에 활용할 최종 환경 및 운항 변수 18개의 목록 <Table 5>에 제시되어 있다.
4.3 선박 메인 엔진 이상치 탐지
이번 장에서는 메인 엔진 관련 변수에 VAE를 적용하여 이상치 탐지를 수행한다. 우선 이상탐지 단계에서는 훈련/검증데이터 구분 없이 전 기간의 데이터를 사용하였는데, 대상 기간에 실제로 발생했던 이상상태 분석에 초점이 맞추어져 있으며, 비지도 학습의 특성상 레이블을 이용한 성능평가가 어렵기 때문이다. 또한 외부 환경 요소와 운항 패턴을 충분히 반영하기 위해 최대한 데이터를 많이 확보하는 것이 중요하기 때문에 전 기간 데이터를 사용하였다.
<Figure 5>는 전체 데이터 인스턴스에 대한 이상치 점수 분포를 나타낸다. 이상치 점수의 분포를 통해 이상치의 비율과 밀도를 간접적으로 파악할 수 있다. 만약 이상치 분포가 꼬리가 두꺼운 heavy-tailed distribution의 모양을 보인다면 정상데이터와 이상데이터의 구분이 불명확하고 이상치 데이터의 비중이 높다고 볼 수 있을 것이다. 하지만, <Figure 5>의 이상치 분포를 보면 heavy tail의 모습을 보이지 않고, 오른쪽 극단적 부분에 매우 작은 일부의 데이터가 따로 이상치로 분포하는 것을 볼 수 있다. 이는 이상데이터와 정상데이터가 잘 분리되었다는 것을 시사한다. 이상치 기준을 각각 상위 1%, 0.4%, 0.3%로 세분화한 결과 이상치 기준을 상위 0.4%로 하였을 때, 정상치와 이상치 간의 분포가 가장 명확히 구분되므로 이상치 기준을 상위 0.4%로 선정하였다. 그 결과 총 27,041개의 인스턴스 중 109개의 이상치가 탐지되었다.
전체 인스턴스에 대한 이상치 점수 흐름도인 <Figure 6>을 살펴보면, 탐지된 109개의 이상치 중 2개의 영역에 과반수 이상의 이상치가 집중되어 있는 것을 확인할 수 있으며, <Figure 7>을 통해 대만해협에 51개, 태국 만에 14개의 이상치가 밀집되어 있음을 파악했다. 따라서 전체 데이터와 대만해협과 태국 만 간의 비교 분석을 집중적으로 수행하였다.
4.4 이상치점수 예측
앞서 언급했듯이 외부 요인이 엔진에 주는 영향력을 파악하기 위해 이상치 탐지 후에 같은 시점에 수집된 환경 및 운항 요인으로 앙상블 기반의 머신 러닝 기법을 적용하여 이상치 점수를 예측하였다. 외부요인의 예측력을 엄밀하게 검증하는 것이 중요함으로 해당 단계에서는 과적합을 막기 위하여 전체 데이터를 무작위로 섞고 데이터를 8:2의 비율로 학습 및 평가데이터로 나누었다. 또한 학습데이터에 대해서는 5번의 교차검증을 통해 각 모델 별로 하이퍼 파라미터 튜닝을 수행하여 모델 별 최적의 하이퍼 파라미터를 도출하였으며, 이에 대한 계산결과를 <Table 6>에 나타냈다. 그 후, 최적의 모델을 선정하기 위하여 4개의 회귀 모델의 성능을 비교했으며, 회귀 기반의 성능 측정 지표인 MSE, RMSE, MAE, MAPE, R2를 기준으로 성능을 평가했다. 평가데이터에 대한 성능 비교 표인 <Table 7>에 제시한 바와 같이 LGBM이 모든 지표에 대해 가장 높은 성능을 보였으므로 최종 모델로 채택하였다.
또한, 외부요인의 이상치 점수에 대한 예측력을 보다 자세히 검증하기 위하여 내부요인을 포함시킨 이상치 점수 예측모델과의 성능 비교 연구를 수행하였으며, 비교결과가 <Table 8>에 정리되어 있다. 표에서 볼 수 있듯이 이상치 점수는 메인 엔진 내부 센서로만 계산되었으므로, 내부센서가 이상치 점수 예측모델에 포함될 경우 성능이 매우 높은 것을 확인할 수 있다. 하지만 외부 변수만을 사용했을 때에도 회귀모형의 R2값은 0.86 정도로 이상치 점수의 상당부분을 외부 운항 및 환경변수가 설명한다고 볼 수 있으며, 이상치 발생에 외부 운항 및 환경적 요인이 큰 영향을 주고 있음을 확인할 수 있다.
또한, 예측모형에서 예상되는 이상치 점수와 실제 이상치 점수 간의 비교 도표가 <Figure 8>에 정리되어 있다. 그림에서 볼 수 있듯이 특정 구간에서 치우침 없이 고른 수준으로 오차가 발생하는 것을 확인할 수 있다.
4.5 SHAP을 통한 기여도 분석
이번 장에서는 4.4절에서 학습된 이상치 점수 예측모형의 독립 변수들인 외부 환경요소 및 운항변수들 각각의 SHAP Value를 계산하고 이를 통해 외부 요인의 기여도를 정량화 및 이에 대한 해석을 진행하였다. 이를 위해 이전 단계에서 학습된 LGBM 모형에 treeSHAP를 적용하였다.
이후 승선 경험이 있는 엔진 기관 전문가와 함께 도출된 외부요인 기여도에 대한 해석을 수행하였다. 해석에 참여한 전문가는 승선기관사 출신의 선박 연구원 1인과 300여척의 선박데이터를 수집 및 관리하는 기업대표 1인과의 인터뷰를 토대로 이상치에 대한 검증을 수행하였다. 특히 이상치 점수가 도드라지게 높은 특정 구간이었던 대만해협과 태국 만에 대한 해석을 수행하였다. 구체적으로 두 장소에서 발생한 이상치에 대한 외부요인의 SHAP value의 분포를 분석하여 어떤 외부요인이 이상치에 기여하고 있는지 파악하였다. 다음으로 전 구간에 대한 외부요인의 이상치 기여도를 분석하는 Global 분석을 수행하였다. 해당 분석에서는 Summary Plot을 통해 전체 이상치 점수에 대한 외부 요인의 기여도 순위를 파악하고, 상위 3개의 변수에 대해서 Dependence Plot과 PDP를 통해 각 변수가 이상치 점수에 끼치는 영향을 파악했다. 구체적인 해석은 5장에서 제시된다.
5. 결과 및 토의
5.1 Local 분석: 이상 구간에 대한 기여도 분석
본 장에서는 이상치 점수가 비정상적으로 높은 두 개의 구간(대만해협 및 태국 만)에 대한 Local 분석을 수행한다. 이를 위해 대만해협, 태국 만에 대하여 절대 평균 SHAP Value를 계산하고 이를 전 구간의 평균과 비교하였다. 그 결과가 <Figure 9>에 제시되어 있다. 이를 살펴보면 대만해협의 관측치는 모든 변수의 기여도가 전체 관측치에 비해 크며, 그 중에서 겉보기 바람의 속력과 선박의 속도, 평균 흘수, 너울성 파도의 주기와 높이, 풍파의 각도 및 Trim 등의 기여도가 특히 큰 것을 확인할 수 있다. 따라서 대만해협에서 바람, 너울성 파도 및 풍파와 같은 요인이 선박에 영향을 미쳤음을 파악할 수 있다. 태국 만의 관측치 역시 대부분의 변수의 기여도가 전체 관측치에 비해 크며, 그 중에서 평균 흘수, 너울성 파도의 주기, 겉보기 바람의 속력, Trim, 풍파의 각도와 주기, Heeling 및 조류의 속도의 기여도가 특히 큰 것을 확인할 수 있다. 따라서 태국 만에서는 선박이 너울성 파도 및 풍파와 조류 등의 영향을 받았음을 알 수 있다. <Figure 10>~<Figure 11>에는 각각 전체와 각 이상치 구역 간의 외부요인 평균값 비교도(a)와 정규화 된 메인 엔진 평균값 비교도(b)가 제시되어 있다.

(a) Mean of external factor between All and Taiwan Strait. (b) Scaled mean of main engine comparison. between All and Taiwan Strait

(a) Mean of External Factor between All and Gulf of Thailand. (b) Scaled Mean of Main Engine Comparison between All and Gulf of Thailand.
우선 <Figure 10a>를 살펴보면 대만해협의 관측치는 전체 관측치에 비해 선박의 속도는 상대적으로 느리지만 조류, 풍파, 너울성 파도, 바람의 ANGLE 값이 낮은 것으로 보아 해당 요인들과 선박의 방향이 일치하며, 특히 겉보기 바람의 속력이 매우 작음을 통해 바람의 방향이 선박의 방향과 일치하는 선박 운항에 긍정적인 상황임을 알 수 있다. 따라서 해당 구역에서 엔진의 부하율을 줄인다면 연료의 절약이 가능할 것으로 사료된다. 또한 <Figure 10b>를 살펴보면 대만해협의 관측치는 전체 관측치에 비해 메인 엔진의 핵심 지표인 부하율과 RPM 그리고 연료 소모율이 낮음을 통해 선박을 운항함에 있어서 어떠한 긍정적인 영향을 받았다고 볼 수 있으며, 이는 <Figure 10a>를 통해 파악한 외부 요인과 선박의 방향이 일치하였기 때문임을 알 수 있다. 이로 인해 대부분의 엔진 관련 변수 값이 낮다. 그러나 그러한 상황임에도 불구하고 전체 관측치에 비해 1~6번 실린더 피스톤 냉각유 출구온도는 극도로 낮고, 자켓 냉각수 입구 온도와 1~6번 실린더 냉각수 출구온도는 높음을 알 수 있다. 따라서 외부 요인과는 별개로 메인 엔진 냉각시스템의 결함이 의심되므로 실린더 피스톤 냉각유와 자켓 냉각수에 대한 점검이 필요하다.
다음으로 <Figure 11a>를 살펴보면 태국 만의 관측치는 전체 관측치에 비해 선박의 속도가 빠르며, 외부 요인인 조류, 풍파, 너울성 파도, 바람의 ANGLE 값이 모두 큰 것으로 보아 해당 요인들과 선박의 방향이 불일치하는 선박 운항에 부정적인 상황임을 알 수 있다. 따라서 선박이 동일한 속도를 유지하기 위해서는 엔진의 부하율을 높여야만 하는 상황임을 알 수 있으며, 해당 구역에서 속도를 유지하기 위해 엔진의 부하를 계속해서 높일 시 엔진에 과부하 관련 결함이 발생할 수 있을 것으로 사료된다. 다음으로 <Figure 11b>를 살펴보면 태국 만은 전체 관측치에 비해 부하율에는 큰 차이가 없으나 RPM은 크고, 터보차저와 엔진의 윤활유, 자켓 냉각수, 1~6번 실린더 피스톤 냉각유와 냉각수, 배기가스의 입,출구 온도와 추진패드 및 소기 온도와 같은 온도 관련 지표는 모두 높으나 터보차저와 엔진의 윤활유, 자켓 냉각수 입구 압력 및 소기기압과 같은 압력 관련 지표 는 모두 낮은 것으로 보아 엔진이 과열되면서 공기를 공급해주는 터보차저 과급 라인의 오일 또한 과열되어서 압력이 떨어지게 되었고, 이로 인해 공기가 충분히 공급되지 못해 소기기압이 떨어지게 되었다. 때문에 냉각 시스템까지 제 역할을 하지 못하고 있어 엔진 과열 관련 결함이 의심되므로 이에 대한 점검이 필요하다. Local 분석을 통해 파악한 두 구역에 관한 설명은 <Table 9>에 제시되어 있다.
5.2 Global 분석: 전구간에 대한 기여도 분석
전체 인스턴스의 메인 엔진 이상치 점수에 대한 글로벌 영향도 분석을 수행하기 위하여 Summary Plot을 먼저 살펴보았다. <Figure 12>에는 Summary Plot을 각각 바이올린 형태(a)와 막대 형태(b)로 제시했다. <Figure 12a>는 모든 변수에 대한 변수 중요도를 색상을 통해 양과 음의 방향으로 보여준다. 색상 막대는 변수 별 평균 SHAP Value를 나타낸다. y축에는 각 변수가 중요도에 따라 내림차순으로 나타난다. 따라서 선박의 속도가 메인 엔진 이상치 점수에 가장 큰 영향을 끼침을 알 수 있고, 겉보기 바람의 속력과 평균 흘수가 그 뒤를 잇는다. 또한, 색상을 통해 알 수 있듯이 선박의 속도, 겉보기 바람의 속력과 조류의 속도 그리고 너울성 파도의 높이 등은 이상치 점수와 음의 관계를 갖고 있으며, 나머지 요인들은 명확한 선형 상관관계를 나타내지는 않는다. 다음으로 <Figure 12b>는 각 변수 별로 이상치 점수의 기여도를 평균 절대 SHAP Value로 보여준다. 마찬가지로 이를 통해 이상치 점수에 선박의 속도, 겉보기 바람의 속력 및 평균 흘수가 가장 중요함을 알 수 있다.
또한, 글로벌 영향도 분석에 대한 이해를 더 돕기 위해 <Figure 13>~<Figure 15>의 의존도 플롯(a), 부분 의존도 플롯(b), 상호의존도 플롯(c)를 통해 이상치 점수에 가장 영향을 끼치는 상위 3개의 변수에 대한 개별 영향력을 살펴봤다.

(a) SHAP dependence plot and (b) PDP of SPEED_VG (c) SHAP dependence plot of SPEED_VG with REL_WIND_SPEED as interaction feature
먼저, <Figure 13>의 (a)와 (b)를 통해 알 수 있듯이 선박의 속력이 17노트 이하로 떨어지는 경우에 0 이상의 SHAP Value가 차지하는 비중이 크므로 선박의 속도가 느릴수록 이상치 점수가 높은 경향이 있으며, <Figure 13c>의 선박의 속력과 겉보기 바람의 속력 간의 상호의존도 플롯을 살펴보면 선박의 속도가 17노트 이하일 때에는 겉보기 바람의 속력이 10m/s 이하인 경우에 이상치 점수가 높음을 알 수 있다. 다음으로 <Figure 14>의 (a)와 (b)를 보면 겉보기 바람의 속력이 약 10m/s 이하인 경우와 약 20m/s 이상인 경우에 이상치 점수가 높은 경향이 있으며, 겉보기 바람의 속력과 평균 흘수 간의 상호의존도 플롯인 <Figure 14c>를 통해 대부분의 관측치가 겉보기 바람의 속력이 약 10m/s 이하일 때에는 평균 흘수가 8보다 클 때, 이상치 점수가 높게 산출되는 경향이 있으나 몇몇 관측치의 경우 평균 흘수가 8보다 작을 때에도 이상치 점수가 상대적으로 높게 산출됨을 알 수 있다. 마지막으로 <Figure 15>의 (a)와 (b)를 살펴보면 평균 흘수가 8 이하인 경우에 이상치 점수가 대부분 높으나 평균 흘수가 8.5 이상인 경우에도 이상치 점수가 높게 산출됨을 알 수 있다. 또한 평균 흘수와 겉보기 바람의 속력 간의 상호의존도 플롯인 <Figure 15c>를 통해서도 <Figure 14c>와 동일한 해석을 할 수 있다.

(a) SHAP dependence plot and (b) PDP of REL_WIND_SPEED (c) SHAP dependence plot of REL_WIND_SPEED with AvgDraft as interaction feature

(a) SHAP dependence plot and (b) PDP Plot of AvgDraft (c) SHAP dependence plot of AvgDraft with REL_WIND_SPEED as interaction feature.
분석 결과를 해석해보면 겉보기 바람의 속력이 작은 경우는 선박과 바람의 방향이 일치하는 선박 운항의 긍정적인 경우이며, 겉보기 바람의 속력이 큰 경우는 선박과 바람의 방향이 불일치하는 선박 운항의 부정적인 경우라고 볼 수 있다. 또한 평균 흘수가 크다는 것은 선박이 바람이나 파도에 영향을 많이 받는다는 것을 의미한다. 따라서 정리하자면 선박의 속도가 느릴 때, 선박과 바람의 방향이 일치하는 경우임에도 이상치 점수가 높다는 것은 Local 분석을 통해 파악한 대만해협과 같이 외부요인과는 별개로 엔진의 냉각 시스템에 결함이 발생한 경우와 선박의 속도가 빠를 때, 평균 흘수가 큰 선박이 외부 요인의 영향을 많이 받는 운항의 부정적인 경우에는 엔진의 부하가 높아져 과부하 관련 결함이 발생한 태국 만과 같은 상황임을 추론할 수 있다.
6. 결 론
본 연구에서는 선박 유지보수 및 운항 효율성 증진과 운영 비용 감소를 위해 18개월 간 실제로 운항한 컨테이너 선박에 부착된 센서로부터 수집된 빅데이터를 활용하여 메인 엔진의 이상을 탐지하고, 환경 및 운항과 같은 외부요인을 고려하여 엔진의 고장에 대한 잠재원인을 파악하였다. 이를 위해 제안방법론인 VAE를 적용하여 메인 엔진의 이상치 점수를 산출하고, 앙상블 기반의 머신 러닝 기법 중 LGBM을 적용하여 외부요인을 통해 이상치 점수를 예측한 후 SHAP를 통해 개별 요인의 영향도를 정량화 하였으며, 이를 토대로 Local 및 Global 분석을 수행하였다. 그 결과 기존의 연구에서 고려하지 못했던 공통적인 한계점인 선박이 처한 환경을 반영하여 메인 엔진 고장에 대한 잠재원인을 보다 자세히 규명할 수 있었다. 이러한 프레임워크를 선박관리자가 운항 중 의사결정을 위한 도구로써 활용하여 구간별로 적절한 조치를 취한다면 선박 엔진의 이상치 발생 여부는 물론 이에 대한 외부요인의 규명이 가능하므로 외부조건 별 적절한 대응이 가능할 것으로 생각된다.
하지만 시간에 따라 기록되는 데이터의 특징을 고려할 때 이상치 분석 과정에서 시간에 따른 패턴을 반영하지 못했다는 점에서 한계점이 존재한다. 이를 해결하기 위해 향후 연구에서는 시계열성을 반영하면서도 원인을 규명할 수 있는 방법론을 개발할 계획이다. 또한 본 연구에서는 이상탐지모형으로 VAE를 사용하였는데, 최근 등장하는 다양한 이상탐지 모형 간의 비교분석도 중요한 추후 연구 중 하나라고 볼 수 있다. 마지막으로 본 연구에서는 외부요인을 반영하여 고장진단을 수행하였지만 외부요인과 내부요인으로 인한 결함을 명확히 구분 짓지는 못한다. 따라서 향후 본 연구의 결과를 토대로 내부 엔진 센서로 인한 결함과 외부요인으로 인한 결함을 명확히 구분 지을 수 있는 새로운 방법론을 모색할 계획이다.
Acknowledgments
이 논문(또는 저서)은 부경대학교 자율창의학술연구비(2021년)에 의하여 연구되었음.
References
-
Aggarwal, C. C. (2017), Outlier Analysis, Springer International Publishing.
[https://doi.org/10.1007/978-3-319-47578-3]
- An, J. and Cho, S. (2015), Variational autoencoder based anomaly detection using reconstruction probability, Special lecture on IE. http://dm.snu.ac.kr/static/docs/TR/SNUDM-TR-2015-03.pdf, .
-
Bentéjac, C., Csörgő, A., and Martínez-Muñoz, G. (2021), A comparative analysis of gradient boosting algorithms, Artificial Intelligence Review, 54(3), 1937-1967.
[https://doi.org/10.1007/s10462-020-09896-5]
-
Boullosa, D., Larrabe, J. L., Lopez, A., and Gomez, M. A. (2017), Monitoring through T2 Hotelling of cylinder lubrication process of marine diesel engine, Applied Thermal Engineering, 110, 32-38.
[https://doi.org/10.1016/j.applthermaleng.2016.08.062]
- Bergman, L. and Hoshen, Y. (2020), Classification-Based Anomaly Detection for General Data (arXiv:2005.02359), arXiv. http://arxiv.org/abs/2005.02359, .
-
Breiman, L. (2001), Random Forests, Machine Learning, 45(1), 5-32.
[https://doi.org/10.1023/A:1010933404324]
-
Capezza, C., Coleman, S., Lepore, A., Palumbo, B., and Vitiello, L. (2019), Ship fuel consumption monitoring and fault detection via partial least squares and control charts of navigation data, Transportation Research Part D: Transport and Environment, 67, 375-387.
[https://doi.org/10.1016/j.trd.2018.11.009]
-
Chen, T. and Guestrin, C. (2016), XGBoost: A Scalable Tree Boosting System, Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 785-794.
[https://doi.org/10.1145/2939672.2939785]
-
Cheliotis, M., Lazakis, I., and Theotokatos, G. (2020), Machine learning and data-driven fault detection for ship systems operations, Ocean Engineering, 216, 107968.
[https://doi.org/10.1016/j.oceaneng.2020.107968]
-
Cipollini, F., Oneto, L., Coraddu, A., Murphy, A. J., and Anguita, D. (2018), Condition-based maintenance of naval propulsion systems: Data analysis with minimal feedback, Reliability Engineering & System Safety, 177, 12-23.
[https://doi.org/10.1016/j.ress.2018.04.015]
-
Deris, S., Omatu, S., Ohta, H., Shaharudin Kutar, Lt. C., and Abd Samat, P. (1999), Ship maintenance scheduling by genetic algorithm and constraint-based reasoning, European Journal of Operational Research, 112(3), 489-502.
[https://doi.org/10.1016/S0377-2217(97)00399-8]
-
Ellefsen, A. L., Han, P., Cheng, X., Holmeset, F. T., Æsøy, V., and Zhang, H. (2020), Online fault detection in autonomous ferries: Using fault-type independent spectral anomaly detection, IEEE Transactions on Instrumentation and Measurement, 69(10), 8216-8225.
[https://doi.org/10.1109/TIM.2020.2994012]
-
Geiger, A., Liu, D., Alnegheimish, S., Cuesta-Infante, A., and Veeramachaneni, K. (2020, December), Tadgan: Time series anomaly detection using generative adversarial networks, In 2020 IEEE International Conference on Big Data (Big Data), IEEE, 33-43.
[https://doi.org/10.1109/BigData50022.2020.9378139]
-
Goodfellow, I., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., ... and Bengio, Y. (2020), Generative adversarial networks, Communications of the ACM, 63(11), 139-144.
[https://doi.org/10.1145/3422622]
-
Hinton, G. E. and Salakhutdinov, R. R. (2006), Reducing the dimensionality of data with neural networks, Science, 313(5786), 504-507.
[https://doi.org/10.1126/science.1127647]
- Kim, D. H., Bae, H. R., Kang, S., Kim, K. H., Han, Y. J., and Kim, H. M. (2022), Outlier Detection and Labeling of Ship Main Engine using LSTM-AutoEncoder, The Korea Journal of BigData, 7(1), 125-137.
- Ke, G., Meng, Q., Finley, T., Wang, T., Chen, W., Ma, W., Ye, Q., and Liu, T.-Y. (2017), LightGBM: A Highly Efficient Gradient Boosting Decision Tree. In I. Guyon, U. V. Luxburg, S. Bengio, H. Wallach, R. Fergus, S. Vishwanathan, & R. Garnett (Eds.), Advances in Neural Information Processing Systems (Vol. 30), Curran Associates, Inc. https://proceedings.neurips.cc/paper_files/paper/2017/file/6449f44a102fde848669bdd9eb6b76fa-Paper.pdf, .
-
Kim, D., Antariksa, G., Handayani, M. P., Lee, S., and Lee, J. (2021), Explainable Anomaly Detection Framework for Maritime Main Engine Sensor Data, Sensors, 21(15), 5200.
[https://doi.org/10.3390/s21155200]
-
Kim, D. H., Lee, S. B., and Lee, J. H. (2020). Anomaly detection of Vessel Main Engine Big Data using Gaussian Mixture Model, The Korean Data Analysis Society, 22(4), 1473-1489.
[https://doi.org/10.37727/jkdas.2020.22.4.1473]
-
Kim, D.H., Lee, J.H., Lee, S.B., and Jung, B.K. (2020), Outlier detection of main engine data of a ship using ensemble method, Journal of the Korean Society of Fisheries Technology, 56(4), 384-394.
[https://doi.org/10.3796/KSFOT.2020.56.4.384]
- Kingma, D. P. and Welling, M. (2013), Auto-encoding variational bayes, arXiv preprint arXiv:1312.6114, .
-
Kowalski, J., Krawczyk, B., and Woźniak, M. (2017), Fault diagnosis of marine 4-stroke diesel engines using a one-vs-one extreme learning ensemble, Engineering Applications of Artificial Intelligence, 57, 134-141.
[https://doi.org/10.1016/j.engappai.2016.10.015]
-
Lazakis, I., Gkerekos, C., and Theotokatos, G. (2019), Investigating an SVM-driven, one-class approach to estimating ship systems condition, Ships and Offshore Structures, 14(5), 432-441.
[https://doi.org/10.1080/17445302.2018.1500189]
- Lundberg, S. M., Erion, G. G., and Lee, S.-I. (2018), Consistent Individualized Feature Attribution for Tree Ensembles. https://doi.org/10.48550/ARXIV.1802.03888, .
- Lundberg, S. M. and Lee, S.-I. (2017), A Unified Approach to Interpreting Model Predictions. In I. Guyon, U. V. Luxburg, S. Bengio, H. Wallach, R. Fergus, S. Vishwanathan, & R. Garnett (Eds.), Advances in Neural Information Processing Systems (Vol. 30), Curran Associates, Inc. https://proceedings.neurips.cc/paper_files/paper/2017/file/8a20a8621978632d76c43dfd28b67767-Paper.pdf, .
- Malhotra, P., Vig, L., Shroff, G., and Agarwal, P. (2015, April), Long Short Term Memory Networks for Anomaly Detection in Time Series, In Esann (Vol. 2015, p. 89).
-
Niu, Z., Yu, K., and Wu, X. (2020), LSTM-based VAE-GAN for time-series anomaly detection, Sensors, 20(13), 3738.
[https://doi.org/10.3390/s20133738]
-
Opitz, D. and Maclin, R. (1999), Popular Ensemble Methods: An Empirical Study, Journal of Artificial Intelligence Research, 11, 169-198.
[https://doi.org/10.1613/jair.614]
-
Pang, G., Shen, C., Cao, L., and van den Hengel, A. (2022), Deep Learning for Anomaly Detection: A Review, ACM Computing Surveys, 54(2), 1-38.
[https://doi.org/10.1145/3439950]
-
Park, S., Moon, J., and Hwang, E. (2020), Explainable Anomaly Detection for District Heating Based on Shapley Additive Explanations, 2020 International Conference on Data Mining Workshops (ICDMW), 762-765.
[https://doi.org/10.1109/ICDMW51313.2020.00111]
- Prokhorenkova, L., Gusev, G., Vorobev, A., Dorogush, A. V., and Gulin, A. (2018), CatBoost: Unbiased boosting with categorical features. In S. Bengio, H. Wallach, H. Larochelle, K. Grauman, N. Cesa-Bianchi, & R. Garnett (Eds.), Advances in Neural Information Processing Systems (Vol. 31). Curran Associates, Inc. https://proceedings.neurips.cc/paper_files/paper/2018/file/14491b756b3a51daac41c24863285549-Paper.pdf, .
-
Raptodimos, Y. and Lazakis, I. (2018), Using artificial neural network-self-organising map for data clustering of marine engine condition monitoring applications, Ships and Offshore Structures, 13(6), 649-656.
[https://doi.org/10.1080/17445302.2018.1443694]
- Ruff, L., Vandermeulen, R., Goernitz, N., Deecke, L., Siddiqui, S. A., Binder, A., Muller, E., and Kloft, M. (2018, July), Deep one-class classification, In International Conference on Machine Learning, PMLR, 4393-4402.
- Ruff, L., Vandermeulen, R. A., Görnitz, N., Binder, A., Müller, E., Müller, K. R., and Kloft, M. (2019), Deep semi-supervised anomaly detection, arXiv preprint arXiv:1906.02694, .
- Liznerski, P., Ruff, L., Vandermeulen, R. A., Franks, B. J., Kloft, M., and Müller, K. R. (2020), Explainable deep one-class classification, arXiv preprint arXiv:2007.01760, .
-
Tan, Y., Tian, H., Jiang, R., Lin, Y., and Zhang, J. (2020), A comparative investigation of data-driven approaches based on one-class classifiers for condition monitoring of marine machinery system, Ocean Engineering, 201, 107174.
[https://doi.org/10.1016/j.oceaneng.2020.107174]
-
Wang, M., Zheng, K., Yang, Y., and Wang, X. (2020), An Explainable Machine Learning Framework for Intrusion Detection Systems, IEEE Access, 8, 73127-73141.
[https://doi.org/10.1109/ACCESS.2020.2988359]
-
Wong, C. W., Chen, C., Rossi, L. A., Abila, M., Munu, J., Nakamura, R., and Eftekhari, Z. (2021), Explainable Tree-Based Predictions for Unplanned 30-Day Readmission of Patients With Cancer Using Clinical Embeddings, JCO Clinical Cancer Informatics, 5, 155-167.
[https://doi.org/10.1200/CCI.20.00127]
-
Velasco-Gallego, C. and Lazakis, I. (2022), RADIS: A real-time anomaly detection intelligent system for fault diagnosis of marine machinery, Expert Systems with Applications, 204, 117634.
[https://doi.org/10.1016/j.eswa.2022.117634]
-
Vanem, E. and Brandsæter, A. (2021), Unsupervised anomaly detection based on clustering methods and sensor data on a marine diesel engine, Journal of Marine Engineering & Technology, 20(4), 217-234.
[https://doi.org/10.1080/20464177.2019.1633223]
박민규 : 부경대학교 시스템경영안전공학부 기술 데이터공학전공에서 2023년 학사학위를 취득하고 부경대학교 산업및데이터공학과 산업데이터공학융합전공에서 석사과정에 재학 중이다. 연구분야는 빅데이터, 인공지능, 비즈니스 애널리틱스 분야이다.
김현주 : 한국해양대학교 기관공학부에서 2017년 학사학위 취득하고 부경대학교 산업및데이터공학과 2023년 석사학위 취득 후 동 대학원에서 박사과정에 재학 중이며, 현재 한국조선해양기자재연구원에 재직 중이다. 연구분야는 친환경선박 기자재, 빅데이터, 인공지능 분야이다.
이상봉 : 2005년에 한국해양대학교에서 선박공학 학사학위를 취득하고 2018년 한국해양대학교 컴퓨터공학 석사학위를 취득했다. 현재 부산에 위치한 선박 DX 및 데이터기반 서비스 기업인 랩오투원의 대표로 활동하고 있다.
이지환 : 서울대학교 산업공학과에서 2008년 학사학위를 취득하고 동 대학원에서 2015년 박사학위(석박통합과정)를 취득했다. 현재 부경대학교 산업및데이터공학과 부교수로 재직 중이다. 연구분야는 데이터 기반 제품서비스 혁신 및 비즈니스 애널리틱스 분야이다.