
이미지 기반 샴 네트워크를 활용한 반도체 제조 공정의 이상 분류 및 중요 구간 탐지
© 2024 KIIE
Abstract
Semiconductor manufacturing processes are a fundamental component of modern industry and technology. Anomalies in this process degrade product quality and reliability, necessitating swift responses. To address this, various studies have been conducted on anomaly detection and efficient management using artificial intelligence algorithms. However, there are limitations that fail to consider the characteristics of actual process data, such as irregular patterns, numerous missing values, and varying data lengths. In this study, we propose to overcome these limitations by using image data with scatter plots applied to actual process data, employing a siamese network-based anomaly classification model based on the similarity with normal segments. Additionally, we apply gradient-weighted class activation map (Grad-CAM) to the siamese network model for identifying the main causes of abnormal segments. The validity and applicability of the proposed method have been demonstrated using data obtained from actual semiconductor manufacturing processes. The proposed method shows superiority in all comparative models. Furthermore, it has been confirmed that the main cause of the abnormal segment aligns with the abnormal judgment criteria for a specific segment of the field engineer.
Keywords:
Anomaly Classification, Deep Learning, Explainable AI, Semiconductor Manufacturing Process1. 서 론
반도체 제조 공정은 현대 산업과 기술의 핵심으로, 컴퓨터, 스마트폰, 자동차와 같이 우리 일상생활에 깊숙이 영향을 미치는 중요한 산업이다. 반도체 제조 공정은 반도체 소자를 생산하는 복잡한 과정으로, 원 웨이퍼로부터 층 증착(deposition), 리소그래피(lithography), 에칭(etching), 이온 주입(implantation), 애닐링(annealing)등 다양한 과정을 포함한다 (Figure 1). 각 단계에서는 다양한 이상 상태가 발생할 수 있으며, 기존에는 작업자가 경험을 바탕으로 이상 상태를 판단하고 대응했지만, 이는 많은 시간과 비용이 소모되며 인력 활용 면에서도 효율적이지 않다. 따라서, 제조 공정으로부터 수집되는 데이터를 활용하여 이상 상태를 자동으로 감지하고 원인을 분석할 수 있는 인공지능 알고리즘 개발의 필요성이 점점 더 커지고 있다.
이러한 수요에 따라 반도체 제조 공정의 효율성을 높이기 위한 인공지능 기반 이상 탐지 연구가 활발히 진행되어 왔다. Park et al.(2013)은 시계열 데이터의 구조적인 특성을 고려하여 주성분 분석을 통해 도출된 분포를 활용한 이상 탐지 알고리즘을 제안하였다. 하지만, 이 방법은 수집된 데이터가 다변량 정규 분포를 따를 경우에만 신뢰성 있는 결과를 보이는 한계점이 있다(Son and Ko, 2009). 그 후, 이러한 한계를 해결하기 위해 딥 러닝 기반 이상 탐지 및 분류 방법에 대한 연구가 지속적으로 발전하였다. Kim and Kang(2017)은 다변량 시계열 데이터에 long short-term memory(LSTM) 알고리즘을 적용하여 반도체 제조 공정의 이상치를 탐지하였다. Kim and Lee (2018)는 생성적 적대 신경망을 활용하여 정상과 이상 데이터 간 불균형 문제를 해결하는 분류 알고리즘을 제안하였다. Xu et al. (2021)은 트랜스포머(transformer)(Vaswani et al., 2017) 구조를 기반으로 시계열 데이터의 시간적 의존성을 활용하는 메커니즘을 통해 복잡한 이상 징후를 효율적으로 탐지하는 비지도 학습 기반 이상 탐지 알고리즘을 제안하였다. Kim et al. (2022)은 오토인코더(autoencoder) 기반 이상 탐지 알고리즘과 이상 원인을 탐지하는 알고리즘을 결합하여 디스플레이 정천적 FAB 공정에서 불량을 탐지하고 원인을 분석하는 알고리즘을 제안하였다. Khan et al.(2021), Garcia et al.(2022)은 컴퓨터 비전에서 딥러닝 방법의 성공에 영감을 얻어, 시계열 데이터의 시간적, 확률적, 동적인 특성을 다양한 시각적 형태로 재구성하는 다양한 방법을 소개하였다. 이를 통해 시간에 따라 퍼져 있는 지역 패턴을 포착하는 이미지 기반 이상 탐지 알고리즘을 제안하였다. 상기 방법론들은 제조 공정에서 얻은 적은 양의 결측치가 포함된 다변량 데이터의 정상과 이상을 판별하는데 높은 성능을 보여주었다. 하지만, 실제 공정 데이터는 균일하지 않은 간격으로 수집되거나, 시점 별 변수 수가 일정하지 않은 등의 문제를 가진다. 이로 인해, 기존 방법론들은 이미지 재구성 과정에서 원본 데이터의 중요한 정보가 손실되거나 왜곡될 수 있으며, 동적인 관계를 제대로 표현하지 못하는 문제가 존재한다. 이는 재구성된 이미지가 모델에게 유의미한 정보를 제공할 수 없는 문제로 이어질 수 있다. 또한, 불량의 원인에 대한 해석이 제공되지 않는 한계점이 존재한다.
따라서, 실제 반도체 제조 공정 내 여러 센서 데이터의 불연속적이고 불규칙적인 특성을 고려하여 이상을 분류하고 분류 결과에 대한 원인을 제공할 수 있는 알고리즘이 필요하다. 본 논문에서는 반도체 에칭 공정 내 24개 웨이퍼 센서 데이터를 바탕으로 불연속적이고 불규칙적인 특성을 지닌 시계열 데이터의 원본 이미지를 활용한다. 이는 재구성 과정에서 발생할 수 있는 정보 손실을 최소화하고, 원 데이터가 지니고 있는 본연의 특성과 패턴을 유지하여 모델의 이해도와 해석 가능성을 향상시키는 장점이 존재한다. 에칭 공정에서 플라즈마를 생성하는 데 필요한 파워, 공정 진행 시간, 그리고 바이어스 값 중 특정 변수만을 과도하게 조절할 경우, 에칭 깊이가 너무 깊거나 얕아질 수 있고 이는 곧 웨이퍼의 불량으로 이어질 수 있다. 따라서, 에칭 공정 센서 원본 이미지 데이터를 이용해 샴 네트워크(Koch et al., 2015) 기반 이상 분류 알고리즘을 적용하고, 특정 구간의 이상을 분류한다. 또한, 샴 네트워크 기반 이상 분류 알고리즘에 gradient-weighted class activaton map (Grad-CAM) (Selvaraju et al., 2017)을 적용해 이상 발생의 원인을 탐지하였다. 본 논문의 중요 기여점은 다음과 같다.
- ∙ 반도체 에칭 공정에서 나오는 불규칙적이고 불연속적인 시계열 데이터를 효과적으로 활용하기 위해 여러 변수에 대한 복잡한 상호작용과 패턴의 변화를 직관적으로 확인할 수 있는 이미지 형태로 재구성하고 합성곱 신경망을 활용하여 이상 분류를 시도하였다. 특히, 이상 분류 대상인 최근 구간과 과거 구간의 관계를 학습하고 패턴에 대한 유사도를 고려하여 이상 여부를 확인하는 샴 네트워크 기반 이상 분류 알고리즘을 제안한다.
- ∙ Grad-CAM을 이용하여 모델 예측에 중요한 영향을 미친 부분을 시각적으로 강조함으로써 최근 구간 내의 이상 패턴과 발생 시점을 명확히 제시할 수 있다. 현장 엔지니어의 실증 검증을 통해 이상 발생에 대한 추가적인 정보의 유용성을 확인하였으며, 결과적으로 이상 분류에 대한 높은 신뢰성을 확보하고 제안 방법론의 적용 가능성을 입증하였다.
본 논문은 다음과 같은 구성으로 진행된다. 제2장에서는 제안 방법론에서 활용한 관련 연구에 대해 소개하고, 제3장에서는 제안 알고리즘에 대하여 설명한다. 제4장에서는 실험 방법 및 실험 결과를 설명한다. 마지막 제5장에서는 본 논문의 결론과 기대 효과를 다루도록 한다.
2. 배경 방법론
2.1 Siamese Network
샴 네트워크는 두 입력 데이터 간 유사도를 계산하여 서로의 관계를 파악할 수 있는 특징을 가지며 전체적인 구조는 <Figure 2>와 같다. 샴 네트워크는 가중치를 공유하는 두 개의 동일한 구조를 가진 신경망으로 구성되어 있어, 이미지나 텍스트 데이터의 유사도를 계산하여 분류 작업을 주로 수행한다. 즉, 유사한 데이터는 특징 공간상에서 가깝게 위치하고, 유사하지 않은 데이터는 멀리 떨어지도록 학습한다. 따라서, 두 입력 데이터 간 계산된 유사도가 높으면 동일한 클래스로, 낮으면 다른 클래스로 분류한다.
이러한 특징으로 인해, 샴 네트워크는 다양한 분야에서 활용되고 있다. 개인 얼굴 특징으로 신원을 확인하는 얼굴 인식(Wu et al., 2017; Zhang et al., 2018; Song et al., 2019; Heidari et al., 2020), 개인 서명 스타일을 인증하거나 위조를 탐지하는 서명 확인(Dey et al., 2017; Xing et al., 2018; Ahrabian et al., 2019; Xiao et al., 2022), 개인 지문 패턴을 활용하여 신원을 인증하는 지문 인식(Alrashidi et al., 2021; Zhu et al., 2022) 분야에서 널리 활용되고 있다. 특히, 최근에는 데이터의 변화 또는 차이점을 감지하는 변화 감지(Daudt et al., 2018; Chen et al., 2020; Fang et al., 2021; Bandara et al., 2022) 분야에서도 많이 사용되고 있다. 본 논문에서는 시계열 데이터에 산점도를 적용하여 얻은 이미지 데이터 내 최근 구간과 과거 구간의 유사도를 고려하여 정상 혹은 이상을 분류하는 이상 분류 문제를 효과적으로 해결하기 위해 샴 네트워크를 사용한다.
2.2 중요 구간 탐지 알고리즘
중요 구간을 탐지하는 알고리즘은 모델의 작동 및 의사 결정 과정을 이해할 수 있도록 하여 모델의 복잡성으로 인해 발생하는 의문점을 줄이고, 모델의 활용 가능성을 높이는 데 중요한 역할을 한다(Arrieta et al., 2020). 본 연구에서는 특정 입력에 대한 모델 예측 원인을 설명하는 다양한 방법론 중 하나인 Grad-CAM을 활용하였다. Grad-CAM 알고리즘은 입력 이미지 내 특정 클래스를 인식하고 판단하는 데 주목하는 부분을 시각화함으로써 이상을 일으키는 구간을 명확히 표현하며, 전체적인 방식은 <Figure 3>과 같다.
Grad-CAM 알고리즘은 이미지 분류 모델인 합성곱 신경망 구조의 마지막 합성곱 레이어 내 뉴런이 이미지에 대한 중요한 의미 정보와 공간적인 정보를 갖고 있다고 가정한다. 먼저, 모델에 이미지 데이터를 입력하여 특정 클래스 c에 대한 예측 점수 yc를 출력한다. 이후, 합성곱 레이어의 특성맵(feature map) Ak에 대한 예측 점수 yc의 기울기 를 계산하고 역전파(backpropagation) 과정과 전역 평균 풀링(global average pooling) 과정을 거쳐 특정 클래스 c에 대한 각 특성 맵 Ak의 중요도 를 계산한다. 를 계산하는 과정은 식 (1)과 같다. 해당 수식에서 Z는 각 특성 맵 내에 기울기의 총합을 의미하며, i와 j는 특성 맵 Ak 내에 행과 열의 지수를 의미하고 k는 특성 맵의 인덱스를 나타낸다. 마지막으로 특정 클래스 c에 대한 Grad-CAM을 구하기 위해서, 각 특성 맵의 중요도 와 특성 맵 Ak을 가중 조합한 후 rectified linear unit(ReLU)를 적용하여 을 도출한다. 을 계산하는 과정은 식 (2)와 같다. 해당 수식에서는 특정 클래스 c로 분류하는 데 영향을 미치는 특성 값에 주목하고, 이에 따라 음의 값을 가진 영향을 제한하기 위해 ReLU 활성화 함수를 사용한다.
(1) |
(2) |
은 열지도(heat map)로 표현되며, 합성곱 신경망에서 추출된 특성 맵을 통해 데이터의 중요한 부분을 시각적으로 볼 수 있다. 본 연구에서는 Grad-CAM을 이상 분류 알고리즘에 적용하여 이상으로 분류된 원인 구간을 시각적으로 표현함으로써, 현장 엔지니어가 원인을 파악하고 의사 결정을 내리는 과정을 지원할 수 있다.
3. 방법론
3.1 데이터 수집 및 전처리
본 연구에서 사용한 데이터는 국내 반도체 A사 실제 제조 공정 데이터로, 2022년 5월부터 2023년 3월까지 총 25,895건이 수집되었다. 이 중 정상 데이터는 25,233건, 이상 데이터는 662건으로, 전통적인 이상 탐지에서 보는 정상과 이상의 비율과 달리, 상대적으로 많은 양의 이상 데이터를 포함하고 있기 때문에 단순한 이상 탐지를 넘어서 보다 정밀한 이상 분류가 가능하다고 판단하였다. 이상치 탐지는 일반적으로 대량의 정상 데이터만을 이용해 모델을 구축하고 이를 통해 소수의 이상 데이터를 식별하는 데 초점을 맞춘 반면, 본 연구에서 제안하는 이상 분류 알고리즘은 충분한 양의 이상 데이터를 기반으로 정상과 이상을 명확하게 구분할 수 있는 능력을 갖추고 있다. 이는 전통적인 이상 탐지 방법론과의 주요 차이점이며, 클래스 불균형 문제를 해결하기 위해 정상 데이터를 이상 데이터의 개수만큼 언더 샘플링하였다. 최종적으로 모델 구축 및 평가에 사용된 데이터는 정상 데이터 662건, 이상 데이터 662건이다. 분할된 데이터를 학습용, 검증용, 그리고 평가용 데이터로 분할하였으며, 분할 시에는 정상과 이상 데이터의 비율이 동일하게 유지되도록 구성하였다. 분할 후 데이터 수는 학습 데이터 847건 (64%), 검증 데이터 212건 (16%), 평가데이터 265건 (20%)이다.
한 설비에서 수집된 데이터는 <Figure 4(a)>와 같이 24개의 변수로 구성되어 있으며, 이는 각각 다른 웨이퍼 슬롯을 나타낸다. 각 행은 시간을 나타내며 표 안의 값은 해당 시간대의 웨이퍼 슬롯에서 수집된 값을 나타낸다. 반도체 제조 공정에는 여러 설비가 존재하며, 설비별로 수집된 데이터 셋은 <Figure 4(b)>와 같다. 그러나 이 데이터 셋은 일반적인 시계열 분류 모델을 사용하기 어렵게 만드는 특성을 가진다. 첫째, 데이터 내 시간 간격이 균일하지 않다. 전통적인 시계열 분류 모델은 규칙적인 시간 간격을 가진 데이터에 적합하게 설계되었기 때문에, 불규칙하게 수집된 데이터에 대해서는 패턴 파악이 어려워 분류 성능이 제한될 수 있다. 둘째, 시점 별로 수집되는 웨이퍼들이 다르기 때문에 시점 별 변수의 개수가 다르며, 측정되지 않는 다수의 웨이퍼들에서 결측치가 발생한다. 셋째, 전체 공정 진행 시간에 따라 입력 시퀀스의 길이가 다르다. 대부분 시계열 분류 모델은 입력 시퀀스의 길이가 동일해야 하며 그렇지 않은 경우, 이를 해결하기 위해 다양한 전처리가 필요하다. 예를 들어, 가장 짧은 길이로 맞추거나 통계량으로 요약하여 사용할 수 있는데, 이 경우 중요한 정보가 손실될 수 있다. 따라서 본 논문에서는 시계열 데이터의 원 이미지를 이용한 분류 모델을 제안한다. 시계열 데이터의 원 이미지를 사용할 경우 변수 개수 및 입력 시퀀스 길이에 상관없이 동일한 이미지 크기 내에서 계측 값의 패턴 변화를 표현할 수 있게 된다.

Examples of Datasets Obtained from Semiconductor Manufacturing Process. (a) Datasets Obtained from 24 Wafer Slots over Time from One Equipment. (b) Datasets Collected at the Same Time from Various Equipment
먼저 데이터 셋에 존재하는 평균 분포를 벗어난 극단값을 대체하는 과정을 진행하였다. 극단값은 다른 데이터들과 비교하여 지나치게 크거나 작은 값으로, <Figure 5(a)>와 같이 극단값이 포함된 경우 전체 데이터의 패턴 파악이 어려워 이상의 주요 원인을 탐색하는 것이 어려워질 수 있다. 따라서, 공정 전문가들의 조언을 통해 극단값을 정의하고 적절한 값으로 대체하였다. 극단값은 동일 시간대에 진행되는 공정 별로 정의하였으며, 데이터 분포에 기반하여 평균값에서 ±6σ 이상 벗어난 경우 극단값으로 판단하였다. 즉, 극단값이 평균값 +6σ보다 큰 경우 평균값 +6σ로, 평균값 -6σ보다 작은 경우 평균값 -6σ로 대체하였다.

Example of Image Data from the Target and Other Equipment Processes. (a) Example of Image Data before Outlier Replacement. (b) Example of Image Data after Outlier Replacement.
극단값 대체를 완료한 후 한 공정 내 모든 설비 데이터의 24개 변수를 시간에 따라 생성한 이미지는 <Figure 5(b)>와 같다. 이 그림에서 파란색 점은 특정 설비 데이터로 이상 분류 대상 설비를 나타내며, 회색 점은 같은 공정 내 다른 설비들의 데이터를 의미한다. 초록색 직선은 예방 정비(PM, preventive maintenance)의 진행 시점을 표시한다. 주황색 구간은 전체 공정 데이터를 시간 기준으로 7등분하였을 때, 가장 최근 부분을 나타내며 나머지 구간은 과거 구간으로 모두 정상으로 가정한다. 본 연구에서는 최근 구간의 이상 여부를 판단하는 것이 목적이다. 이상을 판단하는 기준은 2가지로, 첫째는 이상 분류 대상 설비 데이터의 최근 구간과 과거 구간의 패턴이 서로 다른 경우이며, 둘째는 최근 구간내 이상 분류 대상 설비 데이터와 공정 내 다른 설비들의 데이터 간 패턴이 다른 경우이다. 그러나, 예방 정비 진행 이후에는 일시적으로 패턴 변화가 발생할 수 있는데 이는 실제 이상이 아니므로 이를 고려하여 이상을 판단해야 한다. 따라서, 이러한 세 가지 요소를 모두 포함한 이미지를 입력 값으로 사용하였다. 생성된 RGB 이미지는 파란색 점과 회색 점, 초록색 선으로만 이루어져 있기 때문에, 세 가지 채널 모두 서로 매우 비슷한 정보를 갖게 된다. 독립적인 정보들로 각 채널을 구성하기 위해 <Figure 6>의 (1)과 같이 첫 번째 채널에는 타겟 설비 데이터로만 구성된 이미지, 두 번째 채널에는 같은 공정 내의 다른 설비들의 데이터로만 구성된 이미지, 세 번째 채널에는 예방 정비 진행 시점에 대한 정보만 들어간 3개의 grayscale의 이미지를 활용하였다. 각 요소의 정보를 강조하기 위해 <Figure 6>의 (2)와 같이 세 개의 채널로 쌓아 하나의 입력 데이터로 사용하였다. 최종 입력 데이터로 사용된 이미지는 <Figure 6>의 (3)과 같다.
3.2 샴 네트워크 기반 이상 분류 알고리즘 및 중요 구간을 탐지하는 알고리즘
본 연구에서는 <Figure 6>의 (3)과 같이 전체 공정 데이터를 7구간으로 분할해 과거 구간과 최근 구간에 대한 유사도 기반으로 이상 분류를 진행했으며, 이를 위해 사용한 샴 네트워크는 <Figure 7>과 같다. 이 네트워크는 가중치를 공유하는 합성곱 신경망 구조로 이루어져 있으며, 학습 시 최근 구간이 이상일 경우, 모델은 최근 구간과 과거 구간으로 이루어진 6개의 입력 쌍을 활용하여 적은 양의 이상 데이터를 효과적으로 활용한다. <Figure 7(a)>는 샴 네트워크 기반 이상 분류 부분의 전체적인 구조를 나타낸다. 먼저 이상 분류 알고리즘에서는 최근 구간과 과거 구간으로 구성된 6개의 쌍을 샴 네트워크에 입력하여, 각 이미지 데이터에 대한 임베딩 벡터를 산출한다. 모델은 각 입력 쌍내 최근 구간과 과거 구간의 유사도를 고려하기 위해 임베딩 벡터를 결합하여 하나의 임베딩 벡터를 형성하고 완전 연결층에 입력하여 정상 또는 이상일 확률 값을 산출한다. 이때, 6개의 과거 구간과 최근 구간 간의 유사도를 모두 고려하기 위해 6개의 확률 값에 대한 평균 값을 사용한다. 최종적으로, 도출된 평균 확률 값에 기반하여 최근 구간이 정상 또는 이상인지를 분류한다.

Overall Architecture of the Proposed Method.(a) Anomaly Classification Based on Siamese Network, (b) Detection of Significant Segments Based on Grad-CAM.
<Figure 7(b)>는 중요한 구간을 탐지하는 부분의 전체적인 구조를 나타내며, 이상 분류 알고리즘이 이상으로 분류한 결과에 Grad-CAM을 적용하여 주요 부분을 시각적으로 표현하였다. 모델의 입력으로는 6개의 입력 쌍 중에서 가장 큰 이상 확률 값을 갖는 쌍을 선택하여 활용한다. 학습된 모델은 입력된 이미지를 특성 맵으로 요약하며, 이는 전역 평균 풀링을 통해 이상 확률을 계산하는 데 활용된다. 특성 맵의 값은 이미지의 지역적 중요도를 나타내며, 각 특성 맵에 대한 기여도를 고려하여 전체적인 중요도를 평가할 수 있다. 특성 맵의 기여도는 이상 클래스에 대한 기울기로 계산되며, 최근 구간에 대한 특성 맵과 가중 합하여 최근 구간내 중요한 부분을 열지도로 표현하였다.
4. 실 험
4.1 평가 지표
본 논문에서는 합성 곱 신경망 구조 기반 샴 네트워크의 성능을 평가하기 위해 정확도(accuracy), 재현율(recall) 그리고 F1 score를 사용하였다. 정확도는 식 (3)으로 표현되며 전체 데이터 중 정상 및 이상을 올바르게 예측한 데이터의 비율을 의미한다. 재현율은 식 (4)로 표현되며 모델이 실제 이상인 데이터 중에서 정확하게 이상으로 분류한 비율을 의미하며, 정밀도는 식 (5)로 표현되며 모델이 이상으로 분류한 데이터 중에서 실제로 이상인 비율을 의미한다. 마지막으로, F1 score는 식 (6)으로 표현되며 정밀도와 재현율의 조화 평균을 나타내고 클래스 분포가 불균형한 데이터 셋에서 유용하다. 정확도, 재현율, 정밀도 그리고 F1 score 모두 1에 가까울수록 좋은 성능을 나타낸다.
식 (3)~식 (5)에서 TP(true positive)는 실제로 이상인 데이터를 모델이 이상으로 잘 분류한 개수, TN(true negative)은 실제로 정상인 데이터를 모델이 정상으로 잘 분류한 개수, FP(false positive)는 실제로 정상인 데이터를 모델이 이상으로 잘못 분류한 개수, 그리고 FN(false negative)은 실제로 이상인 데이터를 모델이 정상으로 잘못 분류한 개수를 의미한다.
(3) |
(4) |
(5) |
(6) |
4.2 실험 결과
본 연구에서는 먼저 샴 네트워크의 우수성을 검증하기 위해 전통적인 합성곱 신경망과의 성능 비교 실험을 진행하였다. 또한, 제조 공정 데이터 특성을 고려한 효과적인 특징 추출기를 선정하기 위해 이미지 기반 분류 모델에서 널리 활용되는 GoogleNet(Szegedy et al., 2015), Resnet-18(He et al., 2016), RegNet(Radosavovic et al, 2020), EfficientNetV2(Tan et al., 2021), ConvNeXt(Liu et al., 2022)에 대한 성능 비교 실험도 진행하였다.
샴 네트워크와 일반 합성곱 신경망 모델의 비교 실험 결과는 5회 반복 실험을 통하여 얻은 평균 정확도, 평균 재현율, 그리고 평균 F1 score로 <Table 1>에 정리하였으며, 표준편차는 괄호 안에 표기하였다. 실험 결과, 제안하고 있는 샴 네트워크는 분할하지 않은 제조 공정 데이터를 입력으로 활용한 일반 합섭곱 신경망보다 모든 평가 지표에서 우수한 성능을 보였다. 이는 샴 네트워크 기반 이상 분류 알고리즘이 제조 공정에서 데이터의 정상 및 이상을 효과적으로 구분할 수 있다는 점을 의미한다. 특히, Resnet-18을 샴 네트워크의 백본으로 사용하였을 때, 정확도 0.8460, F1 score 0.8457, 재현율 0.8383로 가장 우수한 성능을 보였다. 이는 residual block을 활용하여 깊은 구조에서도 효율성을 추구한 Resnet-18 모델이 데이터의 중요한 특징을 추출하고 과적합을 방지하여 보다 우수한 성능을 보여준 것으로 판단하고 있다.

Comparison Results for baseline and Siamese Network. Boldface Values Represent the Best Performance and Standard Deviations are Indicated in Parentheses.
다음으로, RGB 이미지 내 세 가지 요소를 grayscale 이미지로 재구성하는 효과를 검증하기 위해 <Table 1> 실험 결과에서 가장 우수한 성능을 보였던 Resnet-18 기반 샴 네트워크를 사용하였다. 이 실험에서 RGB 이미지의 구성 요소는 이상 분류 대상인 설비 데이터, 같은 공정 내 다른 설비 데이터, 그리고 예방 정비(PM) 진행 시점을 포함한다. 각 요소를 grayscale 이미지로 재구성하고 이를 세 개의 채널로 결합하여 입력 데이터로 사용하는 방법의 효과를 평가하였다. 비교 실험 결과는 5회 반복 실험을 통하여 얻은 평균 정확도, 평균 재현율 그리고 평균 F1 score로 <Table 2>에 정리하였으며, 표준 편차는 괄호 안에 표기하였다. Grayscale로 생성된 각 구성 요소를 결합한 방법은 정확도 0.8460, F1 score 0.8457, 재현율 0.8383으로 가장 우수한 성능을 보였으며 이는 데이터를 더 효과적으로 표현하는 방법임을 의미한다.

Comparison Results for Effectiveness of Grayscale Image Generation. Boldface Values Represent the Best Performance and Standard Deviations are Indicated in Parentheses.
마지막으로, 이상 확률 값이 가장 큰 최근 구간과 과거 구간의 쌍을 입력으로 하는 Resnet-18 기반 샴 네트워크에 이상 원인에 중요한 영향을 미친 부분을 탐지하는 Grad-CAM을 적용하여 얻은 결과를 확인하였다. Grad-CAM의 적용 결과는 <Figure 8>과 <Figure 9>에서 확인 가능하며, Grad-CAM이 적용된 이미지에서 좌측은 과거 구간과 최근 구간 이미지를 나타낸다. <Figure 8>에서는 모델이 이상을 정확하게 분류한 경우이며, 예측에 영향을 미친 부분이 시각적으로 두드러지고 활성화 값이 높게 나타나는 것을 확인할 수 있었다. <Figure 8(a)>, <Figure 8(d)>, <Figure 8(f)>에서는 이상 분류 대상인 파란색점이 과거 구간 내 회색점의 패턴 하단부에 위치하지만 최근 구간에서는 과거 자신의 패턴을 유지하다가 결국 회색점과 파란색의 패턴을 벗어나는 것을 확인할 수 있었다. <Figure 8(b)>에서는 파란색점이 과거 구간 내 회색점의 패턴 상단부에 위치하지만, 최근 구간에서는 기존 패턴을 유지하다가 회색점과 파란색점의 패턴을 벗어나는 급격한 변화를 확인할 수 있었다. 또한, <Figure 8(c)>와 <Figure 8(h)>에서는 파란색점이 과거 구간 내 회색점의 패턴 중심에 위치하지만, 최근 구간에서는 기존 패턴을 유지하다가 점차 회색점과 파란색의 패턴을 벗어나는 것을 확인할 수 있었다. 마지막으로, <Figure 8(e)>와 <Figure 8(g)>에서는 파란색점이 최근 구간 내 회색점과 패턴이 유사하지만, 과거 구간 내 파란색점의 패턴과 상이한 것을 확인할 수 있었으며, 특히 <Figure 8(g)>는 최근 구간의 초기 시점까지는 기존 패턴과 동일한 패턴을 보이지만 상단으로 급격한 패턴 변화가 발생하는 것을 볼 수 있었다. 모델이 각 경우마다 예측한 결과에 강한 영향을 미친 부분은 빨간색으로 표현하고 상대적으로 약한 영향을 미친 부분은 옅은 색으로 표현한 결과를 통해 현장 엔지니어가 이상을 판단하는 기준과 상당부분 동일하게 분류하고 있음을 보여주었고, 이는 Grad-CAM을 통해 이상 원인을 탐지할 수 있음으로 알 수 있다.

Examples Showing Visual Explanations for Well-Classified Results as Anomalies. The Blue, Orange, and Gray Boxes Represent the Past, Recent, and Grad-CAM Results, Respectively. Specifically, the Gray Box Highlights Significant Segments within the Image that Influence the Model’s Predictions.

Examples Showing Visual Explanations for Misclassified Results as Anomalies. The Blue, Orange, and Gray Boxes Represent the Past, Recent, and Grad-CAM Results, Respectively. Specifically, the Gray Box Highlights Significant Segments within the Image that Influence the Model’s Predictions.
<Figure 9>에서는 현장 엔지니어는 정상으로 판단했지만, 모델이 이상으로 판단한 데이터에 Grad-CAM을 적용한 결과를 보여주고 있다. 모든 결과에서 최근 구간 내 파란색점이 회색점과 유사한 패턴을 보이지만, 과거 구간 내 기존 패턴과는 다른 양상을 나타내고 있었다. Figure 9(a)에서는 파란색점이 과거 구간 내 회색점의 패턴 상단부에 위치하지만, 최근 구간의 초기 시점에서 상단부로 급격한 패턴의 변화가 발생하고 점차 기존 패턴으로 회귀하는 것을 확인할 수 있었다. <Figure 9(b)>에서는 파란색점이 과거 구간 내 회색점의 패턴 중심에 위치하다가 최근 구간의 마지막에 하단부로 패턴의 변화가 발생하는 것을 확인할 수 있었다. <Figure 9(c)>에서는 파란색점이 과거 구간 내 회색점의 패턴 전면에 위치하지만 최근 구간에서는 상단부로 패턴 변화가 발생하였다. 마지막으로 <Figure 9(d)>에서는 파란색점이 과거 구간 내 회색점의 패턴 중심에서 최근 구간으로 시점이 변화함에 따라 패턴이 아래쪽으로 변하는 것을 확인하였다. 모델은 <Figure 9(a)~Figure 9(d)>에서 확인한 패턴 변화를 정확하게 시각화하였으며 이는 현장 엔지니어의 이상 판단 기준과 동일함으로 알 수 있었다. 이러한 결과를 통해, 현장 엔지니어가 해당 데이터를 재확인할 수 있는 기회를 제공할 뿐만 아니라 신중한 판단을 도울 수 있는 효과를 기대할 수 있다.
5. 결 론
본 연구에서는 반도체 제조 공정에서 생성된 불연속적이고 불규칙한 시계열 데이터를 산점도 이미지 데이터로 재구성하여, 샴 네트워크 기반 이상 분류 알고리즘을 적용함으로써 효과적인 제조 공정 이상 분류를 달성하고자 하였다. 아울러 샴 네트워크에 Grad-CAM을 적용하여 이상으로 예측된 원인 구간을 탐지할 수 있다는 점에서 의의가 있다. 제안 방법론은 과거 구간과 최근 구간 간의 유사도를 고려한 샴 네트워크 구조를 활용하였으며 실험을 통해 우수한 이상 분류 성능을 보이는 것을 확인하였다. 또한, 가장 큰 이상 확률 값을 갖는 입력 쌍에 Grad-CAM을 적용하여 이상으로 분류한 결과에 영향을 미친 이미지 부분을 탐지하고 원인을 해석하였으며, 현장 엔지니어의 검증으로 해당 방법의 유용성을 입증하였다.
본 연구에서는 실제 수집된 제조 공정 데이터에 대한 불균형을 완화하기 위해 언더 샘플링 기법을 활용하여 이상 분류 및 해석을 진행하였다. 하지만, 학습 데이터가 줄어들면 모델이 다양한 패턴 및 변동성을 학습하기 어렵기 때문에 일반화 성능이 저하될 수 있다는 한계점이 존재한다. 이를 보완하기 위해 향후에는 실제 제조 공정 데이터에 맞는 데이터 불균형 완화 방법론을 탐구 및 적용하고자 한다. 이는 모델 성능을 더욱 향상시키고 다양한 산업의 제조 공정에 적용할 수 있을 것으로 기대된다.
References
-
Ahrabian, K. and BabaAli, B. (2019), Usage of Autoencoders and Siamese Networks for Online Handwritten Signature Verification, Neural Computing and Applications, 31, 9321-9334.
[https://doi.org/10.1007/s00521-018-3844-z]
-
Alrashidi, A., Alotaibi, A., Hussain, M., AlShehri, H., AboAlSamh, H. A., and Bebis, G. (2021), Cross-sensor Fingerprint Matching Using Siamese Network and Adversarial Learning, Sensors, 21(11), 3657.
[https://doi.org/10.3390/s21113657]
-
Arrieta, A. B., Díaz-Rodríguez, N., Del Ser, J., Bennetot, A., Tabik, S., Barbado, A., García, S., Gil-López, S., Molina, D., and Benjamins, R. (2020), Explainable Artificial Intelligence (XAI): Concepts, Taxonomies, Opportunities and Challenges Toward Responsible AI, Information Fusion, 58, 82-115.
[https://doi.org/10.1016/j.inffus.2019.12.012]
-
Bandara, W. G. C. and Patel, V. M. (2022, July), A Transformer-based Siamese Network for Change Detection. In IGARSS 2022-2022 IEEE International Geoscience and Remote Sensing Symposium, IEEE, 207-210.
[https://doi.org/10.1109/IGARSS46834.2022.9883686]
-
Chen, J., Yuan, Z., Peng, J., Chen, L., Huang, H., Zhu, J., ... and Li, H. (2020), DASNet: Dual Attentive Fully Convolutional Siamese Networks for Change Detection in High-resolution Satellite Images, IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 14, 1194-1206.
[https://doi.org/10.1109/JSTARS.2020.3037893]
- Daudt, R. C., Le Saux, B., and Boulch, A. (2018, October), Fully Convolutional Siamese Networks for Change Detection, In 2018 25th IEEE International Conference on Image Processing (ICIP), IEEE, 4063-4067.
- Dey, S., Dutta, A., Toledo, J. I., Ghosh, S. K., Lladós, J., and Pal, U. (2017), Signet: Convolutional Siamese Network for Writer Independent Offline Signature Verification. arXiv preprint arXiv:1707.02131, .
-
Fang, S., Li, K., Shao, J., and Li, Z. (2021), SNUNet-CD: A Densely Connected Siamese Network for Change Detection of VHR Images, IEEE Geoscience and Remote Sensing Letters, 19, 1-5.
[https://doi.org/10.1109/LGRS.2021.3056416]
-
Garcia, G. R., Michau, G., Ducoffe, M., Gupta, J. S., and Fink, O. (2022), Temporal Signals to Images: Monitoring the Condition of Industrial Assets with Deep Learning Image Processing Algorithms, Proceedings of the Institution of Mechanical Engineers, Part O: Journal of Risk and Reliability, 236(4), 617-627.
[https://doi.org/10.1177/1748006X21994446]
-
He, K., Zhang, X., Ren, S., and Sun, J. (2016), Deep Residual Learning for Image Recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition, 770-778.
[https://doi.org/10.1109/CVPR.2016.90]
-
Heidari, M. and Fouladi-Ghaleh, K. (2020, February), Using Siamese Networks with Transfer Learning for Face Recognition on Small-samples Datasets. In 2020 International Conference on Machine Vision and Image Processing (MVIP), IEEE, 1-4.
[https://doi.org/10.1109/MVIP49855.2020.9116915]
-
Khan, A. S., Ahmad, Z., Abdullah, J., and Ahmad, F. (2021), A Spectrogram Image-based Network Anomaly Detection System Using Deep Convolutional Neural Network, IEEE Access, 9, 87079-87093.
[https://doi.org/10.1109/ACCESS.2021.3088149]
- Kim, C. and Kang, J. (2017), Anomaly Detection in Semiconductor Manufacturing Data Using LSTM, Proceedings of the Korean Institute of Information Scientists and Engineers, 760-762.
-
Kim, H. and Lee, H. (2018), Fault Detect and Classification Framework for Semiconductor Manufacturing Processes Using Missing Data Estimation and Generative Adversary Network, Journal of Korean Institute of Intelligent Systems, 28(4), 393-400.
[https://doi.org/10.5391/JKIIS.2018.28.4.393]
-
Kim, S. Y., Lee, J. Y., Mok, C. H., Kim, S. H., Moon, S. H., Kyeong, Y. Y., … and Kim, S. B. (2022), Defect Detection and Cause Analysis on Display Electrostatic Chuck Fab Process Using Deep Learning Algorithms, Journal of the Korean Institute of Industrial Engineers, 48(2), 151-162.
[https://doi.org/10.7232/JKIIE.2022.48.2.151]
- Koch, G., Zemel, R., and Salakhutdinov, R. (2015, July), Siamese Neural Networks for One-shot Image Recognition. In International Conference on Machine Learning (ICML) Deep Learning Workshop (Vol. 2, No. 1).
-
Liu, Z., Mao, H., Wu, C. Y., Feichtenhofer, C., Darrell, T., and Xie, S. (2022), A Convnet for the 2020s. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 11976-11986.
[https://doi.org/10.1109/CVPR52688.2022.01167]
-
Miao, J., Tao, H., Xie, H., Sun, J., and Cao, J. (2024), Reconstruction-based Anomaly Detection for Multivariate Time Series Using Contrastive Generative Adversarial Networks, Information Processing & Management, 61(1), 103569.
[https://doi.org/10.1016/j.ipm.2023.103569]
- Park, C. Y. and Kim, C. W. (2013), Fault Detection of Multivariate Time Series Data by between-group Comparison of Principle Components Information, Proceedings of the Korean Society of Management Science Conference, 1177-1184.
-
Radosavovic, I., Kosaraju, R. P., Girshick, R., He, K., and Dollár, P. (2020), Designing Network Design Spaces. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, 10428-10436.
[https://doi.org/10.1109/CVPR42600.2020.01044]
-
Selvaraju, R. R., Cogswell, M., Das, A., Vedantam, R., Parikh, D., and Batra, D. (2017), Grad-cam: Visual Explanations from Deep Networks Via Gradient-based Localization. In Proceedings of the IEEE International Conference on Computer Vision, 618-626.
[https://doi.org/10.1109/ICCV.2017.74]
- Son, J. H., Ko, J. M., and Kim, C. W. (2009), Feature Based Decision Tree Model for Fault Detection and Classification of Semiconductor Process, Industrial Engineering Interfaces (IE interfaces), 22(2), 126-134.
-
Song, L., Gong, D., Li, Z., Liu, C., and Liu, W. (2019), Occlusion Robust Face Recognition Based on Mask Learning with Pairwise Differential Siamese Network. In Proceedings of the IEEE/CVF International Conference on Computer Vision, 773-782.
[https://doi.org/10.1109/ICCV.2019.00086]
-
Szegedy, C., Liu, W., Jia, Y., Sermanet, P., Reed, S., Anguelov, D., ... and Rabinovich, A. (2015), Going Deeper with Convolutions. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 1-9.
[https://doi.org/10.1109/CVPR.2015.7298594]
- Tan, M. and Le, Q. (2021, July), Efficientnetv2: Smaller Models and Faster Training. In International Conference on Machine Learning, PMLR, 10096-10106.
- Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., ... and Polosukhin, I. (2017), Attention is all You Need, Advances in Neural Information Processing Systems, 30.
-
Wu, H., Xu, Z., Zhang, J., Yan, W., and Ma, X. (2017, October), Face Recognition Based on Convolution Siamese Networks. In 2017 10th International Congress on Image and Signal Processing, BioMedical Engineering and Informatics (CISP-BMEI), IEEE, 1-5.
[https://doi.org/10.1109/CISP-BMEI.2017.8302003]
-
Xiao, W. and Ding, Y. (2022), A Two-stage Siamese Network Model for Offline Handwritten Signature Verification, Symmetry, 14(6), 1216.
[https://doi.org/10.3390/sym14061216]
-
Xing, Z. J., Yin, F., Wu, Y. C., and Liu, C. L. (2018, April), Offline Signature Verification Using Convolution Siamese Network. In Ninth International Conference on Graphic and Image Processing (ICGIP 2017) (Vol. 10615), SPIE, 415-423.
[https://doi.org/10.1117/12.2303380]
- Xu, J., Wu, H., Wang, J., and Long, M. (2021), Anomaly Transformer: Time Series Anomaly Detection with Association Discrepancy, arXiv preprint arXiv:2110.02642, .
- Zhang, J., Jin, X., Liu, Y., Sangaiah, A. K., and Wang, J. (2018), Small Sample Face Recognition Algorithm based on Novel Siamese Network, Journal of Information Processing Systems, 14(6).
-
Zhu, L., Xu, P., and Zhong, C. (2021, September), Siamese Network based on CNN for Fingerprint Recognition. In 2021 IEEE International Conference on Computer Science, Electronic Information Engineering and Intelligent Control Technology (CEI), IEEE, 303-306.
[https://doi.org/10.1109/CEI52496.2021.9574487]
김정인: 가톨릭대학교 정보통신전자공학부에서 2020년 학사 학위를 취득하고, 고려대학교 산업경영공학과에서 석박통합과정에 재학 중이다. 연구 분야는 Reinforcement Learning, Self-Supervised Learning이다.
목충협: 고려대학교 산업경영공학부에서 2019년 학사 학위를 취득하고, 고려대학교 산업경영공학과에서 박사과정에 재학 중이다. 연구분야는 Anomaly Detection, Self-Supervised Learning, Multi-task Learning이다.
김현지: 고려대학교 통계학과에서 2022년 학사학위를 취득하고, 고려대학교 산업경영공학과에서 2024년 석사학위를 취득하였다. 현재는 삼성전자 SAIT System research center에서 연구원으로 재직 중이다. 연구 분야는 Multivariate Time Series Data Analysis, Self-Supervised Learning, Anomaly Detection이다.
김재훈: 동국대학교 경영학과에서 2019년 학사 학위를 취득하고, 고려대학교 산업경영공학과에서 박사과정에 재학 중이다. 연구 분야는 Reinforcement Learning이다.
고효현: 삼성전자 연구엔지니어로 재직 중이다.
홍지훈: 삼성전자 연구엔지니어로 재직 중이다.
윤주연: 삼성전자 연구엔지니어로 재직 중이다.
고정흔: 삼성전자 연구엔지니어로 재직 중이다.
김연중: 삼성전자 연구엔지니어로 재직 중이다.
이지열: 삼성전자 연구엔지니어로 재직 중이다.
반효동: 삼성전자 연구엔지니어로 재직 중이다.
김성범: 고려대학교 산업경영공학부 교수로 2009년부터 재직하고 있으며, 인공지능공학연구소 소장, 기업산학연협력센터 센터장, 한국데이터마이닝학회 회장을 역임했다. 미국 University of Texas at Arlington 산업공학과에서 교수를 역임하였으며, 한양대학교 산업공학과에서 학사학위를 미국 Georgia Institute of Technology에서 산업시스템공학 석사 및 박사학위를 취득하였다. 인공지능, 머신러닝, 최적화 방법론을 개발하고 이를 다양한 공학, 자연과학, 사회과학 분야에 응용하는 연구를 수행하고 있다.