[ Article ]

Journal of the Korean Institute of Industrial Engineers - Vol. 52, No. 1, pp.13-26

ISSN: 1225-0988 (Print) 2234-6457 (Online)

Print publication date 15 Feb 2026

Received 01 Sep 2025 Revised 20 Oct 2025 Accepted 16 Dec 2025

DOI: https://doi.org/10.7232/JKIIE.2026.52.1.013

암모니아 가격 예측을 위한 변화 인지형 계층적 어텐션 네트워크

조광은¹ ; 황순혁¹ ; 이진우¹ ; 이준범¹ ; 최고훈² ; 방지원² ; 김성범¹^{, †}

1고려대학교 산업경영공학과
2㈜한화

Shift-Aware Hierarchical Attention Network for Ammonia Price Prediction

Kwangeun Cho¹ ; Sunhyeok Hwang¹ ; Jinwoo Lee¹ ; Junbeom Lee¹ ; Gohoon Choi² ; Jiwon Bang² ; Seoung Bum Kim¹^{, †}

1Department of Industrial and Management Engineering, Korea University
2Hanwha Corporation

Correspondence to: ^†김성범 교수, 02841 서울특별시 성북구 안암로 145 고려대학교 산업경영공학부, Tel: 02-3290-3397, Fax: 02-929-5888, E-mail : sbkim1@korea.ac.kr

Abstract

Forecasting ammonia prices is essential for strategic planning in agriculture, chemical production, and energy-related industries. However, ammonia prices exhibit substantial fluctuations and repeated shifts in statistical properties, challenging conventional forecasting models. To address this, we propose SHARP (Shift-aware Hierarchical Attention for Robust Prediction), which decomposes multivariate time series into variable-specific streams through a channel-independent mechanism and captures inter-variable and temporal dependencies through hierarchical attention. The model incorporates the DILATE loss function to mitigate temporal distortion and RevIN normalization to enhance robustness against distributional shifts. Empirical evaluations on real-world ammonia price data demonstrate SHARP reduces mean absolute error by up to 31% over leading baselines for 8- and 12-week forecasts. Additionally, analysis of attention weights identifies major contributing variables, highlighting the model’s explanatory capability. SHARP thus achieves accurate and interpretable forecasting for dynamically changing time series.

Keywords:

Explainable AI, Price Forecasting, Time Series Forecasting, Deep Learning

1. 서 론

암모니아는 현대 산업 생태계에서 다각적으로 활용되는 핵심 화학 물질이다. 암모니아는 농업 생산량 증진을 위한 고효율 비료 제조에 주 원료로 사용되며, 플라스틱, 폭발물, 합성 섬유 제조에 필수적인 역할을 한다. 농업 분야에서는 전 세계 식량 수요 중 8%가 천연 가스에서 생산된 암모니아에 의존하고 있다. 이는 암모니아 가격 변동이 전 세계 식량 공급과 안정성에 직접적인 영향을 끼친다는 것을 의미한다(Tonelli et al., 2024). 또한, 암모니아는 수영복, 내의 등에 사용되는 나일론 수지 제조 비용에서 상당수를 차지한다. 이에 따라 암모니아 가격은 최종 소매 가격과 기업 생산 계획에 직접적인 영향을 미친다. 따라서 정확한 암모니아 가격을 예측하는 것은 다양한 산업 분야에서 효과적인 생산 계획 수립과 전략적 의사결정을 위해 필수적이다.

암모니아 가격은 여러가지 요인이 복합적으로 작용하여 결정된다. 내부 요인으로는 원재료 비용이 큰 비중을 차지하며, 최근 암모니아 생산량의 약 75%가 천연가스를 기반으로 이루어진다. 이에 따라 천연 가스 가격은 암모니아 가격과 높은 상관 관계를 보이며, 암모니아 가격을 결정하는 핵심적인 요인이다(Huang, 2007; International Energy Agency, 2021). 외부 요인으로는 선박 운송비와 수출입 인프라 비용 등 물류 비용이 포함되며, 암모니아 단가는 생산 비용에 물류 비용이 더해져 최종적으로 결정된다(Oh et al., 2024). 이처럼 다양한 변수 간 상호 작용이 가격 변동성을 증폭시킨다. 또한, 암모니아 가격은 전쟁 등 외부적 요소에 의해 변동할 수 있다. 2022년 발생한 러시아-우크라이나 전쟁 직후 주요 공급망이 폐쇄되면서 암모니아 가격은 급격히 상승했다(S&P Global, 2022). 따라서 암모니아 가격 예측을 위해 다양한 변동 요인을 통합적으로 반영할 수 있는 정량적 분석 및 정확한 예측 모델 개발이 필요하다.

기존 연구들은 다중선형회귀분석(multiple linear regression), GARCH(generalized autoregressive conditional heteroskedasticity) 등 통계적 방법론을 이용해 암모니아 가격을 분석해 왔다(Chena et al., 2012;Ibendahl, 2020; Paulson et al., 2024). 이러한 연구들은 시계열 데이터가 선형적(linear)이고 정상적(stationary)이라는 가정에 기반하고 있어, 실제 시계열 데이터에 존재하는 비정상적(non-stationary) 패턴을 충분히 반영하지 못하는 한계가 있다.

이러한 한계를 극복하기 위해, 최근 시계열 예측에 특화된 딥러닝 모델을 활용하여 비정상 시계열(non-stationary time series)을 예측하려는 연구가 증가하고 있다. 대표적으로, 순환 신경망(recurrent neural network, RNN)은 순차적 데이터에서 패턴을 효과적으로 포착할 수 있다. 하지만 RNN은 시계열을 처리하는 과정에서 초기 입력 정보가 소실되는 장기 의존성(long-term dependency) 문제로 인해, 길이가 긴 시계열 데이터를 정확히 예측하는 데 한계가 있다. 이를 보완하기 위해 제안된 LSTM(long short-term memory)는 길이가 긴 시계열에서도 안정적인 학습이 가능하다(Hochreiter & Schmidhuber, 1997). 또한 LSTM은 Seq2Seq(sequence-to-sequence; Sutskever et al., 2014) 구조와 결합되어 입력 정보를 효과적으로 압축하고, 입력부터 출력까지 중단 단계 없이 처리하는 종단 간 학습(end-to-end learning)을 가능하게 한다. 하지만 여전히 긴 시계열에서는 초기 입력 정보가 유지되지 않아 장기적인 패턴을 학습하는 데 어려움이 따른다. 이를 해결하기 위해 어텐션 메커니즘(attention mechanism; Luong et al., 2015)이 제안되었다. 어텐션은 디코더가 인코더의 각 시점별 정보를 중요도에 따라 가중하여, 장기 의존성 문제를 완화하는 데 기여했다. 이후 어텐션 구조만을 사용한 트랜스포머(transformer; Vaswani et al., 2017) 기반 모델은 방대한 데이터를 병렬적으로 처리함으로써, 예측 성능을 획기적으로 향상시켰다. Li et al.(2019)은 입력 길이가 긴 시계열의 효율적 예측을 위해 정보량이 높은 쿼리(query) 위치에 집중적으로 어텐션을 적용하는 희소적 어텐션(sparse attention) 구조를 도입하여 트랜스포머를 처음 시계열 예측 분야에 활용하였다. Wu et al.(2021)은 트랜스포머의 셀프 어텐션(self-attention)을 자가 상관(auto-correlation)메커니즘으로 대체하여 복잡한 시계열 패턴을 포착하고자 하였다. 이처럼 딥러닝 기반 시계열 예측 모델은 비정상 시계열 패턴까지도 효과적으로 학습할 수 있어 예측 성능에서 우수한 결과를 보였다. 하지만 트랜스포머는 내부 작동 원리를 직관적으로 해석하기 어려워, 예측 결과에 직접적인 영향을 미치는 주요 변수를 파악하는 데 한계가 존재한다.

이에 본 연구는 암모니아 가격 데이터의 특수성을 고려해, 분포 변화에도 강건한 예측 성능과 해석 가능성을 제공하는 shift-aware hierarchical attention for robust prediction(SHARP) 모델을 제안한다. SHARP는 암모니아 가격 데이터가 지닌 구조적 특성을 효과적으로 반영하기 위해 세 가지 구성 요소가 포함되어 있다. 첫째, 계층적 어텐션(hierarchical attention) 구조를 통해 변수와 시점 정보를 동시에 반영하였다. 구체적으로, 입력 단계에서 변수 중요도를 어텐션 값으로 산출하고, 인코더 출력에 대해서는 시점별 어텐션 값을 계산함으로써, 복합적인 요인이 작용하는 암모니아 가격 결정 과정에서 중요한 변수를 명확히 식별할 수 있도록 하였다. 둘째, 시계열 특성을 명시적으로 반영하는 DILATE(distortion loss including shape and time; Guen et al., 2019) 손실 함수를 적용하였다. 이 손실함수는 형태 변화와 시점 불일치를 모두 고려함으로써, 급격하게 변동하는 암모니아 가격 데이터에서도 일관된 예측 성능을 유지할 수 있도록 한다. 셋째, 채널 독립(channel-independent) 전략과 RevIN(reverse instance normalization; Kim et al., 2021)을 적용하여 학습 구간과 테스트 구간 간 분포 차이를 효과적으로 보정하였다. 암모니아 가격은 전쟁 등 외부 충격에 의해 급격히 분포가 변할 수 있는데, 채널 독립 전략과 RevIN은 모델이 이러한 변화에 빠르게 적응할 수 있게 하여 정확한 예측 결과를 가능하게 한다.

나아가 본 연구는 개별 기법의 단순한 결합을 넘어 기존 방법론들의 한계를 상호 보완적으로 극복하여 암모니아 가격 예측 성능을 극대화하도록 설계되었다. RevIN은 데이터 분포 변화에 대응하는 데 효과적이지만, 다양한 변수들이 서로 다른 분포를 가질 경우 이를 단독으로 학습하기 어렵다. 이를 해결하고자 채널 독립 전략을 결합하여 각 변수의 고유한 분포를 개별적으로 정규화함으로써 안정성을 확보하였다. 최근 연구는 RevIN과 채널 독립 전략을 사용할 경우 상호 보완적으로 성능이 향상됨을 보여주었다(Li et al., 2023). 또한 채널 독립 전략은 변수 간 상호 의존성을 포착하는 데 약점을 가지므로, 이를 보완하기 위해 입력 단계에서 변수 간 상호작용을 학습하는 모듈과의 결합이 필요하였다. 이러한 한계를 보완하기 위해 입력 단계에서 변수 간의 복잡한 상호작용을 학습하는 계층적 어텐션 메커니즘을 도입하였다. 이 조합은 변수 간의 상호작용을 학습하면서 동시에 모델의 과적합을 효과적으로 제어할 수 있음을 보여주었다(Huo et al., 2025). 계층별 어텐션 메커니즘은 변수 간 상호작용 학습을 통해 예측의 전체적인 형태를 실제와 유사하게 모방하는 데 효과적이지만, 예측값이 실제 값보다 시간적으로 미세하게 밀리는 예측 지연(prediction delay) 문제를 유발할 수 있다. 이러한 시점 불일치를 보정하기 위해 DILATE 손실 함수를 적용하였다. DILATE 손실 함수는 예측된 패턴의 형태는 유지하면서도 이를 정확한 시점에 정렬하여 예측값의 시간적 정확성을 보장한다(Wang et al., 2022). 이처럼 SHARP는 암모니아 가격에 작용하는 다양한 요인과 분포 변화에 대응하기 위해 설계된 모델로서, 기존 연구의 기법들을 상호 보완적으로 통합하여 강건성과 해석 가능성을 동시에 달성하였다. 본 논문의 주요 기여점은 다음과 같다.

- 본 연구에서 제안하는 딥러닝 기반 다변량 시계열 예측모델인 SHARP는 암모니아 가격의 급격한 변동성과 분포 변화에 대응하기 위해 채널 독립 전략, 계층적 어텐션 메커니즘, DILATE 손실 함수의 세 가지 요소를 통합하여 설계되었다. 채널 독립 전략은 입력 시계열을 변수별로 분리함으로써 변수 간 상관관계 변화에 따른 성능 저하를 완화하고, 분포 변화에 강건한 예측을 가능하게 한다. 계층적 어텐션 메커니즘은 시점 및 변수 별 중요도를 반영함으로써, 불필요한 정보를 효과적으로 제거하고 예측에 핵심적인 변수와 시점에 집중할 수 있도록 한다. DILATE 손실 함수는 시계열 데이터의 형태 변화와 시간 왜곡을 반영하여, 데이터가 가지는 내재적 변동성을 효과적으로 포착할 수 있게 한다. 이러한 세 가지 요소를 결합한 SHARP는 암모니아 가격의 비정상적 패턴에도 유연하게 대응하며, 안정적이고 강건한 예측 성능을 제공한다.
- 본 연구는 별도 해석 모델 없이 모델 내부에 내재된 계층적 어텐션 구조를 통해 변수 중요도를 산출함으로써 해석 가능성을 제공한다. 이러한 방식은 예측 이후 별도의 모델을 통해 변수 중요도를 추정하는 기존 방법과 달리, 예측 과정에서 변수 중요도를 직접 도출한다는 점에서 차별성을 갖는다. SHARP는 이러한 통합 구조를 바탕으로 해석력과 예측력을 동시에 갖추어, 산업 현장에서의 의사결정에 유용한 실질적인 통찰을 제시할 수 있다.
- 본 연구는 제안 방법이 미래 암모니아 가격 예측 과제에서 효과적인지 검증하기 위해 DLinear(Zeng et al., 2023), PatchTST(Nie et al., 2023), iTransformer(Liu et al., 2024) 등 최신 딥러닝 기반 모델과 비교하였다. 그 결과 제안 방법이 비교 방법 대비 우수한 예측 정확도를 기록해, 해당 과제에 적합한 모델임을 입증하였다.

2. 관련 연구

2.1 머신 러닝 기반 시계열 예측

시계열 예측(time series forecasting)은 과거 데이터의 시간적 패턴을 기반으로 미래의 관측값을 추정하는 것으로, 헬스케어, 금융, 제조업 등 많은 분야에서 의사 결정 도구로 광범위하게 활용되고 있다. 초기 시계열 예측 연구는 주로 선형성(linearity)과 정상성(stationarity)을 가정한 전통적인 통계 기법에 의존하였다. 이러한 통계 기반 방법론들은 시간에 따른 변동 패턴을 효과적으로 학습할 수 있다는 장점이 있으나, 강한 선형 가정과 정상성 가정으로 인해 현실 시계열 자료에 내재된 복잡하고 비선형적인 관계를 충분히 반영하는 데 한계가 있었다(Wang et al., 2024).

따라서 복잡하면서 대규모의 데이터셋에서 패턴을 식별할 수 있는 머신러닝 회귀 모델이 시계열 예측에 사용되었다. 이러한 모델들은 통계적 방법론이 포착하기 어려운 비선형 관계를 학습함으로써, 현실 시계열 데이터의 예측 성능 향상을 목표로 한다. Cortes et al.(1995)는 데이터를 고차원 공간으로 매핑하고, 오차 경계 내 최대한 많은 데이터 포인트를 포함하는 최적의 초평면을 찾아 비선형 회귀를 수행하는 SVR(support vector regression)을 제안하였다. 이는 기존 통계 방법론의 선형성 가정에서 벗어나 많은 시계열 예측 과제에서 효용성을 증명하였다(Hao et al., 2006; Abuella and Chowdhury, 2016). 한편, 사전에 데이터 분포를 가정하지 않고 유연하게 적용할 수 있는 의사결정나무 기반 모델(tree-based model) 또한 시계열 예측에서 널리 사용되었다. Breiman(2001)은 여러 개의 의사결정나무를 결합한 앙상블(ensemble) 회귀 기법인 랜덤 포레스트(random forest)를 제안하였다. Chen et al.(2016)은 이를 확장하여 의사결정나무를 순차적으로 학습시키고 이전 단계의 오차를 보완하는 XGBoost를 제안하였다. 이러한 머신러닝 기반 방법론들은 단기 예측이 필요한 풍력 발전 예측, 전기 부하 예측 등에서 우수한 성과를 보였다(Dudek, 2005; Anggraeni et al., 2021).

이러한 머신러닝 모델들은 비선형 시계열 자료에 대한 예측 성능을 향상시켰으나, 시간 종속성을 명시적으로 학습하지 못한다는 한계를 지닌다. 이를 극복하고 시계열의 장기 예측을 효율적으로 수행하기 위해, RNN과 이를 장기 예측 관점에서 발전시킨 LSTM 기반 학습 방법론이 활용되었다. Lai et al. (2018)은 시계열의 장기 및 단기 패턴을 동시에 포착하기 위한 LSTNet(long short-term time-series network)을 제안하였다. LSTNet은 장기 시간 의존성을 학습하는 LSTM과 선형 패턴을 학습하는 AR(autoregressive) 모듈을 병렬적으로 구성하여, 시계열의 선형 및 비선형 패턴 모두를 포착하고자 하였다. Salinas et al.(2017)은 다수의 시계열 데이터를 기반으로 LSTM을 학습하여 다양한 패턴과 불확실성을 포착하는 확률적 예측 모델인 DeepAR을 제안하였다. 이러한 RNN 기반 접근법은 시계열의 시간적 특성을 효과적으로 학습하여 기존 머신러닝 모델 대비 성능을 향상시켰지만, 순차적 구조로 인해 병렬 연산 활용이 제한되어 대규모 데이터 처리에 어려움이 존재한다.

이에 따라 대량의 데이터에서 높은 표현력을 입증한 트랜스포머를 시계열 예측에 적용하고자 하는 연구가 활발히 수행되었다. Zhou et al.(2021)은 시계열 예측에 특화된 트랜스포머 디코더 구조를 제안함으로써, 트랜스포머 구조를 시계열 예측에서 활용할 수 있는 informer를 제안하였다. 이후 연산 복잡도를 낮추면서도 트랜스포머의 표현력을 유지하기 위해 트랜스포머 인코더만을 사용하는 모델들이 제안되었다. PatchTST는 시계열 데이터를 작은 패치(patch) 단위로 분할한 뒤 트랜스포머 인코더만을 활용하여 예측함으로써, 시계열의 국소적인 패턴을 효과적으로 모델링하였다. iTransformer는 인코더 내부에서 변수 간 상관관계를 직접 반영함으로써, 다변량 시계열 예측에서 기존 트랜스포머 기반 모델들이 간과하던 변수 간의 관계 반영을 개선하였다. 그러나 트랜스포머의 높은 표현력이 시계열 예측에서 반드시 효과적인 것은 아니라는 비판도 제기되었다. Zeng et al.(2023)은 트랜스포머 기반 예측 모델이 단순 선형 모델보다 성능이 떨어질 수 있으며, 이는 자기회귀적(autoregressive) 디코딩 과정에서 예측 오차가 누적되기 때문이라고 지적하였다.

이러한 문제 의식과 트랜스포머의 과도한 연산량을 완화하기 위해 최근에는 선형 모델 기반 시계열 예측 연구가 활발히 진행되었다. Chen et al.(2023)은 변수 간 관계와 시간 종속성을 추출하는 다수의 다층 퍼셉트론(MLP; multi-layer perceptron)을 결합하여, 기존보다 경량화된 모델로 시계열 예측을 수행하였다. Wang et al.(2024)는 전통적 통계 방법론에서 활용되던 시계열 분해를 MLP와 결합하여, 시계열의 구조적 특성을 예측에 반영하였다. 이러한 선형 모델들은 RNN과 transformer 기반 모델 대비 연산 복잡도를 줄이면서도 경쟁력 있는 예측 성능을 유지한다는 점에서 의의를 갖는다.

이렇듯 최근 연구는 다변량 데이터와 딥러닝 모델을 활용하여 예측 정확도 향상에 주력해왔다. 그러나 데이터 분포가 변동하는 상황에서 모델이 안정인 예측치를 제공하지 못하는 한계가 존재한다. 특히 암모니아와 같이 국내외 공급망 및 국제 정세에 따라 변동성이 큰 원자재의 경우, 예측 안정성이 더욱 떨어진다. 또한 다양한 변수의 영향을 받는 예측 변수에 대해서는 단순한 예측 성능뿐만 아니라 예측 결과를 어떻게 해석할 수 있는지도 중요하다. 하지만 딥러닝 기반 시계열 예측 모델은 구조적 특성으로 인해 해석 가능성을 충분히 제공하기 어렵다. 이에 제안 방법에서는 시계열 분포 보정 기법을 도입하여 데이터의 변동성에 대응하고, 변수 및 시간 축에서 해석 가능성을 제공하는 계층적 어텐션을 활용함으로써 암모니아 가격 특성에 적합한 새로운 예측 프레임워크를 제안한다.

2.2 시계열 분포 이동 보정 기법

분포 이동(distribution shift)은 데이터 분포가 변화하는 상황이며, 일반적으로 머신 러닝에서는 훈련 데이터와 테스트 데이터의 데이터 분포가 달라지는 상황을 의미한다(Koh et al., 2021). 시계열 예측에서 다루는 현실 시계열 자료는 비정상적(non-stationary)인 특성을 가지고 있어 시간에 따라 분포가 변할 가능성이 높기 때문에 분포 이동을 효과적으로 대응하는 것은 시계열 예측 성능에 있어 결정적인 역할을 한다.

딥러닝 분야에서는 분포 변화에 대한 도메인 적응(domain adaptation) 기법과 도메인 일반화(domain generalization) 기법들이 활발히 연구되었다. 도메인 적응은 소스 도메인(source domain)에서 훈련시킨 모델을 타겟 도메인(target domain) 데이터에 접근하여 적응시키는 기법을 말한다. 반면, 도메인 일반화는 타겟 도메인의 데이터를 활용하지 않고 소스 도메인 훈련 과정에서 한 번도 보지 못한 새로운 분포에 대해서도 강건한 성능을 도출하게 하는 기법을 말한다. 이들은 명시적으로 다른 분포를 가진 데이터에 대해서 좋은 일반화 성능을 보여주었다. 하지만 시계열의 경우는 분포 변화가 연속적으로 변화하기 때문에 소스 도메인과 타겟 도메인을 정의하기 힘들다는 한계가 있다.

따라서 이를 해결하기 위해 시계열의 점진적인 분포 변화를 대응하기 위한 연구들이 활발하게 수행되었다. Passalis et al. (2019)는 고정 통계량으로 정규화하는 기존 방법이 분포 변화에 취약함을 주장하며, 입력 단에서 정규화를 학습할 수 있게 하는 DAIN(deep adaptive input normalization)을 제안하였다. Kim et al.(2021)은 더 나아가 입력 단에서 인스턴스 정규화(instance normalization)을 수행하고, 모델 통과 후 다시 원래 스케일로 복원하는 비정규화 과정을 통해 모델이 분포 변화 영향 없이 데이터를 학습할 수 있게 하는 RevIN을 제안하였다. RevIN은 도메인 적응 및 일반화 기법 적용 없이 시계열의 분포 변화에 대응할 수 있게 함으로써, 많은 시계열 예측 연구에서 표준적인 구성 요소로 사용하였다(Zhou et al. 2022; Li et al., 2023).

3. 제안 방법론

본 연구에서 제안하는 SHARP 모델은 입력 어텐션(input attention)을 기반으로 변수 중요도를 반영하는 인코더, 시점 별 어텐션(temporal attention) 기반 시점 중요도를 반영하는 디코더, 시점 변동 및 패턴 변화를 반영하는 DILATE 손실 함수로 구성된다. 전체적인 제안 방법론 구조는 <Figure 1>과 같다. 먼저, 과거 시계열 정보는 인스턴스 정규화를 거쳐 입력 어텐션에 투입된다. 입력 시계열 데이터는 각 주차의 벡터 $x t = x t 1, x t 2, ⋯, x t N ∈ R N$ , t=1, ..., L으로 표현된다. 입력 어텐션은 각 변수의 중요도를 산출하고, 이를 기반으로 중요한 변수에 집중할 수 있도록 입력 데이터를 재구성한다. 이때 재구성된 입력은 채널 독립 전략에 따라 각 변수별 단변량 시계열 형태로 분리되어 LSTM 인코더에 투입된다. 인코더가 출력한 정보는 시점 별 어텐션을 통해 각 시점의 중요도를 반영한 맥락 벡터(context vector) 형태로 디코딩되며, 맥락 벡터는 인코더에서 추출한 변수 및 시점의 핵심 정보를 담고 있다. 이 맥락 벡터로부터 최종 예측 값인 $y^L + 1, y^L + 2, …, y^L + S$ 이 산출된다. 이후 예측 결과는 역정규화(inverse normalization) 과정을 거쳐 실제 값의 스케일로 복원되며, 모델은 시점의 위치 변화와 시계열 패턴의 왜곡을 동시에 고려할 수 있는 DILATE 손실 함수를 기반으로 학습된다.

Figure 1.

Overall Architecture of the Proposed SHARP

본 연구에서는 길이 L인 입력 다변량 시계열 데이터를 사용하여, 길이 S인 미래 암모니아 가격을 예측하고자 한다. 이에 따라, 입력 시계열 X는 변수 N개를 가지는 길이 L의 시계열로, 식 (1)과 같이 정의된다.

X = x 1, x 2, …, x L, x t ∈ R N

(1)

각 입력 시계열에서 K번째 변수 정보를 담고 있는 시계열 x^k는 원소 L개를 가지는 단변량 시계열이며, $x t = x 1 k, …, x L k T$ 으로 정의된다. 또한 입력 시계열에서 t번째 시계열 정보를 가지고 있는 단변량 시계열 x_t는 변수 N개를 포함하며 $x t = x t 1, …, x t N$ 으로 정의된다. 타겟 시계열은 암모니아 가격 정보 S개를 가지고 있는 단변량 시계열로 길이 S를 가지며, 식 (2)와 같이 요약된다.

y = y L + 1, …, y L + S

(2)

SHARP는 입력 시계열을 기반으로 미래 S개 시점의 암모니아 가격을 예측하는 것을 목표로 한다. 학습 대상인 함수 f(ㆍ)은 입력 열 X를 받아, 미래 시점의 암모니아 가격 y_L+s에 대응하는 예측 값 $y^L + s$ 를 산출하는 비선형 함수로 표현된다.

y^= f X; Θ

(3)

3.1 입력 어텐션 기반 인코더

암모니아 가격은 생산, 공급, 물류 등 다수 요인이 복합적으로 작동해 결정되므로, 변수 중요도와 변수 간 상호 작용을 효과적으로 반영할 수 있는 모델 구조가 요구된다. Qin et al. (2017)은 다변량 시계열 분석에서 입력 단계에 어텐션을 적용해 변수 중요도를 산출하는 입력 어텐션 구조를 제안했다. 본 연구는 장기 의존성 문제를 완화하는 LSTM과 입력 어텐션을 결합함으로써. 변수 간 상호작용을 보다 효과적으로 반영할 수 있도록 구조를 확장하였다.

인스턴스 정규화를 거친 입력 시계열 X는 입력 어텐션 모듈을 거쳐 LSTM에 입력된다. 입력 어텐션 모듈은 각 변수에 대한 단변량 시계열 x^k에 대해, 이전 시점의 은닉 상태 h_t-1과 셀 상태 s_t-1을 결합하여 변수 중요도를 산출한다. 여기서 $e t k$ 는 시점 t에서 k번째 변수의 중요도를 계산한 값이며, $α t k$ 는 이를 정규화한 어텐션 점수(attention score)이다. [h_t-1,s_t-1]은 이전 시점의 은닉 상태와 셀 상태를 결합한 것이다. 이 과정에서 입력 어텐션 모듈은 식 (4), (5)와 같이 나타낼 수 있다.

α t k = exp ⁡ e t k ∑ i = 1 e x p ⁡ e t i

(4)

e t k = v e ⊤ t a n h ⁡ W e h t - 1; s t - 1 + U e x k

(5)

이 과정에서 v_e∈R^T, W_e∈R^T×2d_e, U_e∈R^T×T은 학습 가능한 파라미터(parameter)이며, d_e는 은닉 상태 차원을 나타낸다. 산출된 가중치는 각 시점의 변수별 입력값에 곱해져, 변수 중요도가 반영된 새로운 입력 벡터 $x t ~$ 을 형성한다. 이는 각 변수의 상대적 중요도를 고려하여 입력값을 재구성하는 과정으로, 식 (6)과 같이 나타낼 수 있다.

x t ~ = α t ⊙ x t = α t 1 x t 1, …, α t N x t N ∈ R N

(6)

⊙은 구성 요소 별 곱(element-wise product)이다. 또한, 분포 변화에 대한 모델 적응력을 높이기 위해 입력 시계열을 변수 별로 분리하는 채널 독립 방식을 적용했다. Han et al.(2024)은 채널 독립 전략이 분포 변화가 큰 시계열 데이터셋에서 우수한 적응력을 보인다는 것을 실험적으로 입증하였다. 예측 대상인 암모니아 가격 또한 외부 요인에 대해 변동이 크므로, 이러한 분포 변화에 효과적으로 대응하기 위해 본 연구에서는 해당 전략을 적용했다. <Figure 2>는 입력 다변량 시계열을 채널 독립 전략으로 분할하는 예시다.

Figure 2.

Channel-independent Strategy to Multivariate Time Series Data

제안 방법은 채널 독립 전략에 따라 입력 데이터를 변수 별로 분리하여 입력으로 사용한다. 은 입력 어텐션 모듈을 통해 재구성된 입력 중 시점 t에서 k번째 변수 값이며, 각 변수는 독립적으로 LSTM 셀을 통해 업데이트된다.

h t k, c t k = L S T M x ~ t k; h t - 1 k, c t - 1 k

(7)

특정 시점에서 모든 변수에 대해 업데이트 후, 각 변수에서 산출된 은닉 상태와 셀 상태를 결합하여 $H t o u t ∈ R e N × d$ , $C t o u t ∈ R e N × d$ 를 생성한다. 여기서 N은 변수 개수를 의미하며, d_e는 은닉 상태 차원을 뜻한다. 이들은 선형 레이어(linear layer)를 거쳐 입력 어텐션에 투입되는 최종 은닉 상태 및 셀 상태 $h t, c t ∈ R e d$ 와 출력 벡터 e_t∈R^N×d를 산출한다. d는 최종 인코더 출력 벡터 차원이다. 산출된 h_t, c_t는 다음 시점에서 입력 어텐션과 LSTM 셀에 입력으로 사용되며, 시점 t에서 생성된 e_t를 결합하여 최종 인코더 출력 $e o e t t = 1 L ∈ R L × N × d$ 을 구성한다.

3.2 시점 별 어텐션 기반 디코더

본 연구에서는 계층적 어텐션이 결합된 인코더-디코더 구조를 사용하여 시계열 예측을 수행하였다. 기존 순환 신경망 기반 인코더-디코더 구조는 입력 시퀀스를 고정 길이 벡터로 압축하는 과정에서 정보 손실이 발생해 성능을 저하될 수 있다(Cho et al., 2014). 이러한 한계를 보완하기 위해 Bahdanau et al. (2014)은 디코더 각 시점에서 인코더 은닉 상태 전체를 하여 참조하는 시점 별 어텐션을 제안하였다. 이 방식은 입력 시퀀스를 고정된 벡터로 표현하지 않고, 인코더 은닉 상태를 참조하면서 긴 시퀀스에 대한 처리 능력을 향상시켰다. 본 연구에서 제안하는 모델은 이러한 시점 별 어텐션을 입력 어텐션과 결합하여 계층적 구조를 형성하였다. 입력 어텐션은 변수 간 중요도를 반영하고 시점 별 어텐션은 시간 축의 중요도를 반영함으로써, 시간과 변수 두 축에서 보다 중요한 정보를 효과적으로 추출할 수 있도록 설계되었다.

디코더는 인코더 출력을 임베딩한 E = Conv(e_o) = (e₁, e₂, ..., e_L)를 시점 별 어텐션의 입력으로 사용한다. 여기서 입력 E = (e₁, ..., e_L)는 입력 시점별 임베딩 값을 나타낸다. 시점 별 어텐션 모듈은 시점 별 인코더 은닉 상태 e_i에 대해 이전 시점 은닉 상태 d_t-1과 셀 상태 $S t - 1'$ 을 결합하여 시점 별 중요도 $β t i$ 를 산출한다. 이때 $l t i$ 는 디코더 시점 t에서 인코더 시점 i번째가 가지는 상대적 중요도를 계산한 값이며, $β t i$ 는 이를 정규화한 어텐션 점수이다. 이 과정에서 시점 별 어텐션 모듈은 식 (8), (9)와 같이 나타낼 수 있다.

l t i = v d ⊤ t a n h ⁡ W d d t - 1; s t - 1' + U d e i

(8)

β t i = exp ⁡ l t i ∑ j = 1 L e x p ⁡ l t j

(9)

산출된 시점 중요도 $β t i$ 는 인코더 은닉 상태 e_i에 대한 가중치로 작용하며, 이를 바탕으로 시점별 가중합을 통해 맥락 벡터 c_t를 다음과 같이 생성한다:

c t = ∑ i = 1 L β t i e i

(10)

맥락 벡터 c_t가 생성되면, 이를 이전 시점의 디코더 은닉 상태 d_t-1와 결합한 후 선형 투영 행렬 W_∈put∈R^d×(d+m)을 적용하여 LSTM 입력 벡터 ( $c ~ t$ )을 구성한다. 여기서 m은 디코더 은닉 상태 차원을 의미한다. 이 선형 투영은 LSTM 셀에 적합한 입력을 형성하는 한 편, 과거 시점 정보를 맥락 정보와 통합해 모델이 더 풍부한 정보를 학습할 수 있도록 한다. $c ~ t$ 를 LSTM 셀에 통과하여 현재 시점의 은닉 상태를 산출하며, 이후 이를 다시 맥락 벡터와 결합해 선형 투영 W_∈output∈R^m×(d+m)을 적용한다. 최종적으로 생성한 표현 벡터 z_t는 최종 예측에 활용한다.

c ~ t = W ∈ p u t c t; d t - 1 + b ∈ p u t

(11)

d t, s t = L S T M c ~ t; d t - 1, s t - 1'

(12)

z t = W o u t p u t c t; d t + b o u t p u t

(13)

최종적으로 시점 t에서 생성된 표현 벡터 $z t ∈ R N × m$ 는 선형 계층을 통해 각 시점에 대한 1차원 값으로 압축되며, 이를 기반으로 길이 S의 예측 시계열 $y^= y^L + 1, ⋯, y^L + S$ 을 산출한다. 산출된 예측 값은 역정규화를 거쳐 실제 값으로 변환되며, 이를 통해 최종 예측결과가 도출된다.

3.3 DILATE 손실 함수

본 연구에서는 시계열의 시간 왜곡과 형태 변화를 효과적으로 반영하기 위해 DILATE 손실 함수를 적용하였다. 기존 시계열 예측에서는 평균제곱오차(mean squared error; MSE)나 평균절대오차(mean absolute error; MAE)와 같은 손실 함수가 주로 사용된다. 그러나 해당 지표들은 동일 시점에서의 예측 값과 관측치 간의 평균 오차만을 고려하기 때문에, 비선형적인 시간 구조나 급격한 패턴 변화에 대응하는 데 한계가 있다. Cuturi & Blondel(2017)은 이러한 한계를 언급하며, 급격한 변화 구간에서 기존 손실 함수가 예측 값을 과도하게 평탄화 한다는 문제를 설명하고, DTW(dynamic time warping; Sakoe et al., 1978)를 기반으로 한 SoftDTW 손실함수를 제안했다. 또한 Frías-Paredes et al.(2017)은 MAE 및 MSE 기반 예측 지표가 급격한 변동 시 관측 값 변화에 뒤따라가는 예측 지연 현상 (prediction delay)이 발생함을 지적하며, 이를 보완하게 위해 TDI(time distortion index) 기반 평가 지표를 제안했다. 따라서 암모니아 가격처럼 관측 값이 급격히 변동하는 경우, 단순 오차 기반 손실함수만으로는 핵심 패턴을 정확히 포착하지 못하거나 예측 시점의 지연이 발생할 수 있다. 이에 따라 본 연구에서는 형태(shape) 손실과 시간(temporal) 손실을 선형 결합한 DILATE 손실 함수를 적용하였으며, 이는 식 (14)와 같이 정의된다.

L D I L A T E y, y^= α L s h a p e γ y, y^+ 1 - α L t e m p o r a l y, y^

(14)

DILATE 손실 함수는 정답 시계열 y = (y_L+1, ..., y_L+S)와 예측 시계열 $y^= y^L + 1, ⋯, y^L + S$ 간 형태 손실과 시간 손실을 파라미터 α로 선형 결합한 구조이다. 여기서 α는 두 손실 항목 중 어느 쪽에 더 비중을 둘지 결정한다.

형태 손실 $L s h a p e γ y, y^$ 은 SoftDTW를 활용하여 시계열 간 형태적 유사성을 측정한다. 이때 파라미터 γ는 각 시점을 서로 어떻게 대응시킬지 결정하는 모든 가능한 정렬 방식을 조정한다. γ이 작을수록 특정 대응 방식에 집중하여 국소적인 차이를 민감하게 반영하고, γ이 클수록 여러 대응 방식의 평균적으로 반영하여 전체적인 패턴 유사성을 강조한다. 시간 손실 $L t e m p o r a l y, y^$ 은 TDI를 미분 가능하게 확장한 손실 함수로서 시계열 간 시간 왜곡을 정량화한다. 두 손실 함수를 결합함으로써, 예측 결과의 평탄화 현상과 시점 지연 문제를 동시에 완화할 수 있다.

4. 실험

4.1 데이터 수집 및 전처리

본 연구에서는 암모니아 가격과 연관 변수로 구성된 다변량 시계열 데이터를 활용하였다. 해당 데이터는 2007년 1월부터 2024년 10월까지 총 929주에 걸친 주간 단위 자료로 구성되어 있다. 종속 변수로는 극동 아시아(Far East) 지역을 목적지로 하는 암모니아 가격인 CFR Far East 가격을 사용하였다. 독립 변수는 수집 주기, 암모니아 가격과의 연관성, 수집 가능 여부 등을 기준으로 8개 범주 중 총 59개를 선별하였다. 각 변수는 지역 또는 품목 단위로 분류되며, <Table 1>은 각 범주에 대한 세부 설명을 제공한다.

Table 1.

Description of Input Variables in the Ammonia Dataset

해당 데이터셋에 포함된 변수들은 암모니아 가격과의 상관도가 높고, 산업적으로 밀접하게 연관된 항목으로 구성되었다. 요소는 암모니아를 주원료로 사용하는 대표적인 유기 화합물로, 암모니아 가격과 유사한 추세를 보인다. 비료와 카프로락탐 역시 암모니아를 원료로 생산되며, 암모니아 가격 변동에 민감하게 반응하는 특성을 가진다. 대부분의 암모니아는 천연가스를 원료로 생산되며, 원유 가격은 천연가스 가격에 영향을 미치므로 암모니아 가격에도 간접적인 영향을 준다.또한 암모니아 가격은 물동량, 공급사 상황 등 공급망 요인에 따라 변동하며, 이러한 요인을 반영하는 변수로 해상 운임이 포함된다. 이외에도 암모니아 가격은 지정학적 사건이나 글로벌 경제 위기와 같은 외부 충격에 의해 영향을 받을 수 있으며, 주가 지수나 금·은과 같은 안전 자산 가격은 이러한 외부 불확실성을 반영하는 지표로 활용될 수 있다. 본 연구에서는 이러한 다양한 암모니아 가격 결정 요인들을 반영하기 위해 다변량 시계열 예측 모델을 구축하였으며, 어텐션 메커니즘을 활용하여 변수별 중요도를 산출함으로써 해석 가능한 예측 모델을 제안하였다. 아울러, 모든 변수는 주 단위로 기록하였으며, 원유 가격과 같이 일별로 수집되는 변수의 경우 각 주의 기준일에 해당하는 값만을 추출하여 주별 자료로 변환하였다.

데이터는 훈련, 검증, 평가용으로 분할하여 실험에 활용했다. 평가 데이터는 2020년 1월부터 2024년 10월까지의 250주 데이터를 선정하였으며, 이 시기는 러시아-우크라이나 전쟁 등 지정학적 위기가 심화된 시기로 외부 요인에 따른 시계열 분포 변화가 뚜렷하게 나타나 적절한 평가 구간으로 판단하였다. 훈련 및 검증 데이터는 2020년 이전의 679주 데이터를 사용하였으며, 해당 구간 중 80%는 훈련용, 20%는 검증용으로 분할하였다. 분할된 데이터는 슬라이딩 윈도우(sliding window) 기법을 적용하여 전처리하였으며, 예측 길이에 따라 두 가지 실험을 설계하였다. 하나는 예측 길이 8주에 입력 길이 24주를 대응시킨 실험이며, 다른 하나는 예측 길이 12주에 입력 길이 36주를 대응시켰다. 대응되는 슬라이딩 윈도우는 1로 설정하여, 한 시점씩 이동하여 가능한 모든 데이터 쌍을 생성하도록 하였다. 이러한 예측 길이는 제품 가격 설정, 분기별 실적 전망 등 실무적 요구를 반영하여 각각 약 2개월 및 3개월에 해당하는 기간으로 설정하였다. 추가적으로, 전체 데이터에는 표준 스케일러(standard scaler)를 적용하여 입력 변수들을 정규화하였다.

4.2 실험 환경 및 평가 지표

본 연구에서는 제안 방법을 검증하기 위해 다음과 같은 실험 환경을 구성하였다. 모든 모델은 300 에폭(epoch) 동안 학습을 진행하였으며, 검증 손실(validation loss)가 가장 낮게 기록된 모델을 최종 평가에 활용하였다. 실험은 총 다섯 차례 반복 수행하였고, 옵티마이저(optimizer)은 Adam을 사용하였다. 배치 사이즈(batch size)로 128을 사용하였으며, 학습률(learning rate)은 0.001으로 설정하였다. 인코더와 디코더의 은닉층 차원은 256으로 설정하였으며, 인코더 출력 벡터 차원은 256로 설정하였다. 이 외 비교 방법론 세부 사항은 원 논문에서 제시한 설정을 그대로 따랐다. 제안 방법론에 활용한 DILATE 손실 함수 선형 결합 가중치 α와 형태 손실 가중치 γ는 각각 사전 실험 최적값인 0.5와 0.2로 설정하였다.

성능 평가는 두 가지 정량적 지표를 활용하여 수행하였다. 첫 번째 평가지표는 MAE로, 예측값과 실제값 간의 차이를 절대값 기준으로 산출하므로 결과 해석이 직관적이다. 본 연구는 암모니아 가격 예측을 목표로 하므로, 실제 가격과 예측 가격 간의 차이를 직접적으로 반영하는 MAE가 적절하다고 판단하였다. 두 번째 평가지표는 평균 절대 비율 오차(mean absolute percentage error; MAPE)이다. MAPE는 MAE를 비율 형태로 변환하여 척도(scale)에 대한 의존성을 줄여주는 회귀 평가 지표로, 본 연구에서 사용된 가격 단위인 달러($)로 인해 발생할 수 있는 척도 문제를 보완하기 위해 사용하였다. MAE와 MAPE의 수식은 각각 식 (15), 식 (16)에 정의되어 있으며, 두 지표 모두 0 이상의 값을 가지며 값이 작을수록 모델의 예측 성능이 우수함을 나타낸다.

M A E = 1 n ∑ i = 1 n y i - y^i

(15)

M A P E = 100 n ∑ i = 1 n y i - y^i y i

(16)

4.3 실험 결과

제안 모델인 SHARP의 암모니아 가격 예측 성능을 검증하기 위해, 본 연구에서는 시계열 예측 분야에서 널리 활용되는 다양한 방법론과의 성능 비교 실험을 수행하였다. 우선, 전통적인 머신러닝 기반 방법론과의 비교를 위해 SVR, random forest, XGBoost를 실험에 포함하였다. 이들 모델은 회귀 문제에서 안정적인 성능을 보여주며, 시계열 예측에서도 신뢰할 만한 성능을 보이는 것으로 알려져 있어 비교 대상으로 선정하였다. 전통적인 머신러닝 기반 방법론은 다중공선성(multicollinearity)의 영향을 받기 때문에, 각 범주에서는 암모니아 가격과의 상관성이 가장 높은 변수만을 대표 변수로 사용하였다. 딥러닝 계열 방법론과의 비교를 위해서는 최근 제안된 시계열 예측 특화 모델들을 선정하였다. Informer는 트랜스포머 구조를 시계열 예측에 처음 적용한 모델로, 트랜스포머의 인코더와 디코더를 모두 활용하여 시계열 데이터를 예측한다. DLinear는 시계열 분해 기법과 단순한 선형 예측 구조를 결합함으로써, 기존의 복잡한 트랜스포머 기반 모델보다 우수한 예측 성능을 보인 바 있다. PatchTST는 시계열 데이터를 작은 패치(patch) 단위로 분할한 뒤 트랜스포머 인코더만을 활용하여 예측함으로써, 효율성과 성능을 동시에 확보하였다. 마지막으로, iTransformer는 인코더 내부에서 변수 간 상관관계를 직접 반영함으로써, 다변량 시계열 예측에서 트랜스포머 기반 모델의 한계를 극복하고 성능을 향상시킨 최신 방법론이다.

<Table 2>는 앞서 소개한 비교 방법론들과의 실험 결과를 나타낸 것이다. 본 실험은 8주 예측과 12주 예측의 두 가지 상황을 설정하여 수행하였으며, 각 예측 길이별로 가장 우수한 성능을 보인 모델은 볼드체로 표시하였다.

Table 2.

Performance Comparison between SHARP and Existing Methods in Terms of MAE and MAPE*100. Experiments were conducted for two forecasting lengths: 8 weeks and 12 weeks. The best-performing model for each setting is highlighted in bold. ↓ indicates that lower values represent better performance.

실험 결과, 제안한 SHARP 모델은 암모니아 가격 예측에서 전반적으로 우수한 성능을 나타냈다. 8주 예측 실험에서는 실제 가격과 예측값 간의 오차가 50달러를 넘지 않았으며, 예측 오차율 또한 실제값 대비 10%p 미만으로 유지되었다. 이는 변동성이 큰 시험 구간의 특성을 고려할 때, SHARP가 외부 요인에 민감한 암모니아 가격의 특성을 효과적으로 반영하고 있음을 나타낸다. 또한, 시계열 데이터의 분포 변화에 강건한 것으로 알려진 DLinear, PatchTST, iTransformer 등의 최신 방법론들과 비교하여 MAE 기준으로 약 10%에서 최대 31%까지 성능을 개선하였으며, 이를 통해 제안한 모델의 구조적 강점을 입증할 수 있었다. 12주 예측 실험에서도 SHARP는 기존 방법론 대비 MAE를 28% 이상 감소시키는 성과를 보였다. 특히, 예측 기간이 길어짐에 따라 성능 저하가 두드러졌던 다른 비교 방법론들과 달리, SHARP는 12주 예측 상황에서도 비교적 안정적인 예측 정확도를 유지하였다. 이러한 결과는 제안한 방법이 예측 기간의 변화에도 강건하게 대응할 수 있음을 보여준다.

<Figure 3>은 제안 방법론의 핵심 매개변수인 α와 γ에 대한 민감도 분석 결과를 제시한다. 각 그래프는 매개변수 값 변화에 따른 MAE 변화를 나타내며, 점선으로 표시된 기준선은 각 예측 구간에서 비교 방법론 중 가장 우수한 성능을 보인 모델의 MAE 값을 의미한다. <Figure 3 (a)>는 α 변화에 따른 성능 추이를, <Figure 3 (b)>는 γ 변화에 따른 성능 추이를 나타낸 것이다. 제안 모델은 모든 매개변수 설정과 예측 길이에서 비교 방법론 대비 안정적으로 낮은 예측 성능을 기록하였다. 특히 8주 예측에서는 매개 변수 변화에도 불구하고 상당히 강건한 성능을 보여주며, 이는 별도의 매개 변수 조정 없이도 일관된 예측 정확도를 확보할 수 있음을 의미한다. 따라서 SHARP는 특정 매개변수 값에 과도하게 의존하지 않고 다양한 조건에서 안정적인 예측 성능을 제공한다는 점에서 암모니아 가격 예측에 실질적인 적용 가능성과 우수성을 가진다.

Figure 3.

A Sensitivity Analysis of SHARP's Hyperparameters, α and γ. The figure shows the performance trend as the parameters change, where the baseline indicates the top-performing comparison model at each forecast length

<Figure 4>은 평가 기간 동안 딥러닝 기반 비교 방법론인 DLinear, PatchTST, iTransformer와 제안한 SHARP 모델이 가격 분포 변화에 얼마나 강건하게 예측 성능을 유지하는지를 시각적으로 비교한 그래프이다. 상단 그래프는 2020년 1월부터 2024년 10월까지 총 250주 간의 실제 암모니아와 예측 결과를 함께 나타낸 것이다. 파란 선은 각 시점에서 산출된 예측값들을 평균한 결과로, 모델의 전반적인 예측 경향을 보여준다. 이 기간 중 세 가지 주요 구간을 선정하여 비교하였다. 먼저, <Figure 4(a)>는 암모니아 가격이 급격히 상승하는 구간에 대한 비교 결과를 보여준다. 이 구간에서 기존 방법론들은 전반적으로 실제 가격보다 낮은 예측값을 산출하며, 급격한 분포 이동에 효과적으로 대응하지 못하는 경향을 나타냈다. 반면, SHARP는 가격 상승 특성을 정확히 반영하여 실제 값과 유사한 수준의 높은 예측 정확도를 달성하였다. <Figure 4(b)>는 학습 구간에서는 관측되지 않았던 새로운 고가격 분포 구간에 대한 비교 결과이다. 기존 방법론들은 해당 분포에 대해 과소 예측하는 경향을 보였으나, SHARP는 새로운 분포 환경에서도 높은 적응력을 보이며 안정적인 예측 성능을 유지하였다. 마지막으로, <Figure 4(c)>는 상승한 가격이 하락세로 전환되는 구간에 대한 비교를 제시한다. 기존 방법론들은 하락 폭을 충분히 반영하지 못해 예측 오차가 크게 나타났으나, SHARP는 가격 하락 흐름을 정밀하게 반영함으로써 상대적으로 낮은 예측 오차를 기록하였다. 이와 같은 결과는 SHARP가 다양한 가격 변동 상황에서도 강건하게 대응하며, 일관되게 우수한 예측 성능을 발휘할 수 있음을 보여준다.

Figure 4.

Comparison of forecasting performance between SHARP and existing methods for 8-week ahead ammonia prices. The figure illustrates how closely each method’s predictions align with the actual price (ground truth)

SHARP의 각 구성 요소가 최종 성능 향상에 미치는 효과를 분석하기 위해 구성 요소 별 기능 제거 실험(ablation study)을 수행하였다. <Table 3>은 제안한 방법론에서 각 구성 요소인 hierarchical attention, DILATE 손실 함수, RevIN 정규화, 채널 독립 전략을 각각 제거했을 때의 예측 성능 변화를 비교한 결과를 제시하며, <Figure 5>는 각 구성 요소를 제거했을 때의 각 시점에서의 예측값들을 평균화하여 예측 추세를 비교한 결과이다.

Table 3.

Impact of Each Component of SHARP on Overall Performance. Experiments were conducted for two forecasting horizons: 8 weeks and 12 weeks. For each horizon, the best-performing variant is highlighted in bold. ↓ indicates that lower values represent better performance.

Figure 5.

Prediction Plots with Individual SHARP Components Removed. The plots show the forecasting performance when each component of SHARP is excluded. Predicted values (blue) are compared with ground truth (red) over the test period.

우선, hierarchical attention을 제외하고 LSTM 인코더-디코더 구조를 사용한 경우 성능 저하가 가장 두드러지게 나타났으며, 이는 해당 모듈이 변수 간 중요도 산출과 시계열 내 상호의존성 학습에 있어 핵심적인 역할을 수행하고 있음을 보여준다. DILATE 손실 함수를 MSE 손실함수로 대체하였을 때 성능이 하락하였는데, 시계열의 시간적 정렬성과 형태적 일관성을 반영하지 못했기 때문으로 해석된다. 이는 <Figure 5(b)>에서 볼 수 있듯, 직전 예측값을 그대로 복사하는 지연 현상과 최고점 구간에서의 형태 탐지 실패로 나타난다. 이러한 결과는 DILATE가 단순히 시점 간의 오차를 줄이는 데 그치지 않고, 시계열의 전반적인 패턴을 고려함으로써 예측 모델의 정확도 향상에 기여하고 있음을 시사한다. 다만 12주 예측의 경우, 모든 요소를 사용한 제안 방법론과 성능 차이가 크지 않았는데, 이는 DILATE의 장점인 시계열 모양 및 왜곡 보정 효과가 초기 구간에서 상대적으로 더 발휘됨을 의미한다. RevIN 및 채널 독립 전략을 제거한 경우, 시계열의 분포 이동을 효과적으로 반영하지 못해 예측 정확도가 저하되었다. RevIN을 제거한 모델의 예측 결과는 <Figure 5(c)>에서 급격한 분포 상승 구간에서 예측치를 과도하게 산출하는 경향을 보였다. 또한, 체널 독립 전략을 제거한 <Figure 5(d)>에서는 상승에서 하락, 혹은 하락에서 상승으로 전환되는 시점을 제대로 포착하지 못하는 한계가 나타났다. 이는 RevIN 기반의 정규화 기법과 채널 독립 전략이 분포 변화에 대한 모델의 강건성을 향상시켜, 예측의 일관성을 높이는 데 기여하고 있음을 보여준다. 모든 구성 요소를 포함한 SHARP는 8주 예측에서 MAE 47.88, MAPE 8.99%로 가장 우수한 성능을 기록하였으며, 12주 예측에서도 MAE 82.17, MAPE 15.48%로 다른 구성 대비 가장 높은 정확도를 달성하였다. 이러한 결과는 제안된 각 구성 요소가 시계열 예측 성능 향상에 유의미하게 기여하고 있음을 실험적으로 입증한다.

4.4 Attention Score을 통한 기여도 분석

SHARP는 hierarchical attention 메커니즘을 통해 변수별 중요도와 시점별 중요도를 동시에 반영한다. 기존의 일반적인 Seq2Seq 기반 모델과 달리, SHARP는 입력 단계에서 어텐션 가중치를 학습하여 각 변수와 시간이 예측에 기여하는 정도를 정량적으로 산출할 수 있도록 설계되었다. 이로 인해 도출된 어텐션 값은 암모니아 가격 결정 과정에서 핵심적인 변수와 시점들을 식별하는 데 중요한 근거로 활용된다. <Figure 6>은 전체 테스트 구간에 대해 계산된 입력 어텐션 점수와 시점 별 어텐션 점수 평균값 중 상위 항목을 시각화한 결과를 보여준다. <Figure 6(a)>는 입력 어텐션 점수를 나타낸 것으로, 예측에 주요하게 기여한 변수로는 카프로락탐 가격, 천연가스 가격 등 다양한 원자재 관련 지표뿐만 아니라, 경제 지표, 해상 운임 지표 등 경제 및 물류 관련 지표도 포함되었다. <Figure 6(b)>는 시점 별 어텐션 점수를 시각화한 것으로, 모델이 예측 시 가장 최근 시점인 24번째 관측치를 주로 참고하고 일부 초기 시점(4번째, 5번째, 8번째 관측치)도 반영하는 것으로 나타났다. 이러한 결과는 외부 요인에 의해 가격이 급격히 상승하거나 하락하는 테스트 구간 특성을 반영한 것으로, 모델이 상승 및 하락의 시작점을 포착하기 위해 최근 시점에 높은 가중치를 부여했음을 의미한다. 동시에 초기 시점도 일정 부분 참고했다는 점은 단순히 최근 정보에만 의존하는 것이 아니라 장기 추세 역시 학습하여 예측에 활용함을 보여준다. 이는 SHARP가 단일 변수가 아닌 다양한 경제 및 에너지 관련 지표를 종합적으로 고려하고, 시계열 상승 및 하락 패턴을 정확히 포착함으로써 예측 성능을 향상시켰음을 보여준다.

Figure 6.

Variable and Time Importance Based on Attention Weights. (a) shows the importance of variables based on attention weights. (b) shows the importance of time steps indicating their relative contribution to the model’s prediction

Attention score 분석을 통해 모델이 예측 과정에서 어떤 변수와 시점에 집중하는지를 확인할 수 있으며, 이는 모델의 해석 가능성을 높이고 실제 활용에 있어 중요한 인사이트를 제공한다. 특히 딥러닝 기반 예측 모델은 일반적으로 ‘블랙박스(black box)’로 간주되어 해석에 어려움이 따르지만, attention 메커니즘을 활용한 기여도 분석을 통해 모델의 의사결정 과정을 보다 직관적으로 설명할 수 있게 된다. 이러한 해석력은 실제 산업 현장이나 실무 적용 시, 사용자가 모델의 판단 근거를 명확히 이해할 수 있도록 도와주며, 예측 결과에 대한 신뢰도를 높이는 데 기여한다.

5. 결 론

본 연구는 암모니아 가격 예측 문제에서 높은 변동성과 복잡한 영향 요인을 효과적으로 반영하기 위해, 강건한 성능과 해석 가능성을 동시에 갖춘 예측 모델인 SHARP를 제안하였다. 암모니아는 다양한 산업에서 핵심 원료로 사용되며, 외부 충격이나 공급망의 불안정성에 따라 가격 변동성이 크게 나타나는 특성을 지닌다. 이러한 예측 환경에서는 시계열 분포 변화에 능동적으로 대응함과 동시에, 예측 결과에 대한 해석력을 제공할 수 있는 모델이 요구된다. SHARP는 변수 및 시점 정보를 동시에 반영하는 계층적 어텐션 구조, 분포 적응을 위한 RevIN과 채널 독립 전략, 시계열의 형태와 시점 왜곡을 고려한 DILATE 손실 함수를 결합하여 설계되었다. 실험 결과, SHARP는 8주 및 12주 예측 모두에서 기존 비교 방법론 대비 우수한 성능을 보였으며, 어텐션 기반 분석을 통해 예측에 기여한 주요 변수에 대한 직관적인 해석도 가능함을 확인하였다. 또한, 구성 요소별 성능 기여도 분석을 통해 각 모듈의 유효성이 실험적으로 검증되었다. SHARP는 암모니아 가격 예측을 수행한 최초의 다변량 시계열 딥러닝 모델로서, 비정상적인 분포 변화에도 안정적으로 대응할 수 있는 구조를 갖추고 있다. 특히, 별도의 해석 모델 없이도 모델 내부에서 산출된 어텐션 가중치를 활용하여 변수 중요도를 파악할 수 있도록 설계되어, 예측 성능뿐만 아니라 해석 가능성 측면에서도 실용성을 확보하였다. 이를 통해 사용자는 모델의 의사결정 근거를 직관적으로 이해할 수 있으며, 예측 결과에 대한 신뢰도를 높일 수 있다. 다만, 본 연구는 예측 기간을 8주와 12주로 한정하고, 암모니아라는 단일 상품의 분포 변화에 초점을 맞추어 설계되었다. 향후 연구에서는 장기적인 추세 변화까지 포착할 수 있는 구조로 확장하고, 도메인 일반화 기법을 접목함으로써 다양한 분포 변화 조건에서도 강건한 성능을 유지할 수 있는 모델로 발전시킬 계획이다.

References

Abuella, M. and Chowdhury, B. (2017), Solar power forecasting using support vector regression, arXiv preprint arXiv:1703.09851.
Anggraeni, F., Adytia, D., and Ramadhan, A. W. (2021, October), Forecasting of wave height time series using AdaBoost and XGBoost, case study in Pangandaran, Indonesia. In 2021 International Conference on Data Science and Its Applications (ICoDSA), IEEE, 97-101. [https://doi.org/10.1109/ICoDSA53588.2021.9617524]
Bahdanau, D., Cho, K. H., and Bengio, Y. (2014), Neural machine translation by jointly learning to align and translate, arXiv preprint arXiv:1409.0473.
Breiman, L. (2001), Random forests, Machine Learning, 45, 5-32. [https://doi.org/10.1023/A:1010933404324]
Chen, S. A., Li, C. L., Yoder, N., Arik, S. O., and Pfister, T. (2023), Tsmixer: An all-mlp architecture for time series forecasting, arXiv preprint arXiv:2303.06053.
Chen, T. and Guestrin, C. (2016), Xgboost: A scalable tree boosting system, In Proceedings of the 22nd ACM Sigkdd International Conference on Knowledge Discovery and Data Mining, 785-794. [https://doi.org/10.1145/2939672.2939785]
Chena, P. Y., Changb, C. L., Chena, C. C., and McAleerc, M. (2012), Modelling the effects of oil prices on global fertilizer prices and volatility, Journal of Risk and Financial Management, 5(1), 78-114. [https://doi.org/10.3390/jrfm5010078]
Cho, K., Van Merriënboer, B., Bahdanau, D., and Bengio, Y. (2014), On the properties of neural machine translation: Encoder-decoder approaches, arXiv preprint arXiv:1409.1259. [https://doi.org/10.3115/v1/W14-4012]
Cortes, C. and Vapnik, V. (1995), Support-vector networks, Machine Learning, 20, 273-297. [https://doi.org/10.1023/A:1022627411411]
Cuturi, M. and Blondel, M. (2017), Soft-DTW: A differentiable loss function for time-series, In Proceedings of the 34th International Conference on Machine Learning, 70, 894-903.
Dudek, G. (2015, January), Short-term load forecasting using random forests. In Intelligent Systems' 2014: Proceedings of the 7th IEEE International Conference Intelligent Systems IS’2014, September 24‐26, 2014, Warsaw, Poland, Volume 2: Tools, Architectures, Systems, Applications, Cham: Springer International Publishing, 821-828.
Frías-Paredes, L., Mallor, F., Gastón-Romeo, M., and León, T. (2017), Assessing energy forecasting inaccuracy by simultaneously considering temporal and absolute errors, Energy Conversion and Management, 142, 533-546. [https://doi.org/10.1016/j.enconman.2017.03.056]
Han, L., Ye, H. J., and Zhan, D. C. (2024), The capacity and robustness trade-off: Revisiting the channel independent strategy for multivariate time series forecasting, IEEE Transactions on Knowledge and Data Engineering, 36(11), 7129-7142. [https://doi.org/10.1109/TKDE.2024.3400008]
Hao, W. and Yu, S. (2006, June), Support vector regression for financial time series forecasting. In International Conference on Programming Languages for Manufacturing, Boston, MA: Springer US, 825-830. [https://doi.org/10.1007/0-387-34403-9_115]
Hochreiter, S. and Schmidhuber, J. (1997), Long short-term memory, Neural Computation, 9(8), 1735-1780. [https://doi.org/10.1162/neco.1997.9.8.1735]
Huang, W. Y. (2007), Influence of the Natural Gas Price on the Ammonia Price, 2000 to 2006.
Huo, M., Lu, K., Li, Y., Zhu, Q., and Chen, Z. (2025), Ct-patchtst: Channel-time patch time-series transformer for long-term renewable energy forecasting, arXiv preprint arXiv:2501.08620.
Ibendahl, G. (2020), Predicting nitrogen fertilizer prices, Journal of ASFMRA, 171-176.
International Energy Agency (2021), Ammonia Technology Roadmap, S&P Global (2022), Ammonia Outlook.
Kim, T., Kim, J., Tae, Y., Park, C., Choi, J. H., and Choo, J. (2021). Reversible instance normalization for accurate time-series forecasting against distribution shift, In International Conference on Learning Representations.
Koh, P. W., Sagawa, S., Marklund, H., Xie, S. M., Zhang, M., Balsubramani, A., Hu, W., Yasunaga, M., Phillips, R. L., Gao, I., Lee, T., David, E., Stavness, I., Guo, W., Earnshaw, B., Haque, I., Beery, S. M., Leskovec, J., Kundaje, A., Pierson, E., Levine, S., Finn, C., and Liang, P. (2021), Wilds: A benchmark of in-the-wild distribution shifts, In International Conference on Machine Learning, PMLR, 2021, 5637-5664.
Lai, G., Chang, W. C., Yang, Y., and Liu, H. (2018), Modeling long-and short-term temporal patterns with deep neural networks, In The 41st International ACM SIGIR Conference on Research & Development in Information Retrieval, 95-104 [https://doi.org/10.1145/3209978.3210006]
Le Guen, V. and Thome, N. (2019), Shape and time distortion loss for training deep time series forecasting models, Advances in Neural Information Processing Systems, 32.
Li, S., Jin, X., Xuan, Y., Zhou, X., Chen, W., Wang, Y. X., and Yan, X. (2019), Enhancing the locality and breaking the memory bottleneck of transformer on time series forecasting, Advances in Neural Information Processing Systems, 32.
Li, Z., Qi, S., Li, Y., and Xu, Z. (2023), Revisiting long-term time series forecasting: An investigation on linear mapping, arXiv preprint arXiv:2305.10721.
Liu, Y., Hu, T., Zhang, H., Wu, H., Wang, S., Ma, L., and Long, M. (2023), Itransformer: Inverted transformers are effective for time series forecasting, arXiv preprint arXiv:2310.06625, .
Luong, M. T., Pham, H., and Manning, C. D. (2015), Effective approaches to attention-based neural machine translation, arXiv preprint arXiv:1508.04025, . [https://doi.org/10.18653/v1/D15-1166]
Nie, Y., Nguyen, N. H., Sinthong, P., and Kalagnanam, J. (2022), A time series is worth 64 words: Long-term forecasting with transformers, arXiv preprint arXiv:2211.14730, .
Oh, S., Kim, S., Oh, S., Kim, J., Kim, Y., and Kang, S. (2024), Techno-Economic Assessment of Ammonia Value Chain with Consideration of Ammonia Utilizations, Available at SSRN 5025437. [https://doi.org/10.2139/ssrn.5025437]
Passalis, N., Tefas, A., Kanniainen, J., Gabbouj, M., and Iosifidis, A. (2019), Deep adaptive input normalization for time series forecasting, IEEE Transactions on Neural Networks and Learning Systems, 31(9), 3760-3765. [https://doi.org/10.1109/TNNLS.2019.2944933]
Paulson, N., Schnitkey, G., and Zulauf, C. (2024), Where Might Nitrogen Fertilizer Prices Be Headed?, Farmdoc Daily, 14(114).
Qin, Y., Song, D., Chen, H., Cheng, W., Jiang, G., and Cottrell, G. (2017), A dual-stage attention-based recurrent neural network for time series prediction, arXiv preprint arXiv:1704.02971, . [https://doi.org/10.24963/ijcai.2017/366]
Sakoe, H. and Chiba, S. (1978), Dynamic programming algorithm optimization for spoken word recognition, IEEE Transactions on Acoustics, Speech, and Signal Processing, 26(1), 43-49. [https://doi.org/10.1109/TASSP.1978.1163055]
Salinas, D., Flunkert, V., Gasthaus, J., and Januschowski, T. (2020), DeepAR: Probabilistic forecasting with autoregressive recurrent networks, International Journal of Forecasting, 36(3), 1181-1191. [https://doi.org/10.1016/j.ijforecast.2019.07.001]
Sutskever, I., Vinyals, O., and Le, Q. V. (2014), Sequence to sequence learning with neural networks, Advances in Neural Information Processing Systems, 27.
Tonelli, D., Rosa, L., Gabrielli, P., Parente, A., and Contino, F. (2024), Cost-competitive decentralized ammonia fertilizer production can increase food security, Nature Food, 5(6), 469-479. [https://doi.org/10.1038/s43016-024-00979-y]
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł., and Polosukhin, I. (2017), Attention is all you need. Advances in Neural Information Processing Systems, 30.
Wang, S., Wu, H., Shi, X., Hu, T., Luo, H., Ma, L., Zhang, J., and Zhou, Y. J. (2024), Timemixer: Decomposable multiscale mixing for time series forecasting, arXiv preprint arXiv:2405.14616, .
Wang, X., Wu, Z., Ge, J., Zhang, Z., Han, L., Wang, S., and Zhang, X. (2022), Grid load forecasting based on dual attention BiGRU and DILATE loss function, IEEE Access, 10, 64569-64579. [https://doi.org/10.1109/ACCESS.2022.3182334]
Wang, Y., Wu, H., Dong, J., Liu, Y., Long, M., and Wang, J. (2024), Deep time series models: A comprehensive survey and benchmark, arXiv preprint arXiv:2407.13278, .
Wu, H., Xu, J., Wang, J., and Long, M. (2021), Autoformer: Decomposition transformers with auto-correlation for long-term series forecasting, Advances in Neural Information Processing Systems, 34, 22419-22430.
Zeng, A., Chen, M., Zhang, L., and Xu, Q. (2023), Are transformers effective for time series forecasting?, In Proceedings of the AAAI Conference on Artificial Intelligence, 37(9), 11121-11128. [https://doi.org/10.1609/aaai.v37i9.26317]
Zhou, H., Zhang, S., Peng, J., Zhang, S., Li, J., Xiong, H., and Zhang, W. (2021), Informer: Beyond efficient transformer for long sequence time-series forecasting, In Proceedings of the AAAI Conference on Artificial Intelligence, 35(12), 11106-11115. [https://doi.org/10.1609/aaai.v35i12.17325]
Zhou, T., Ma, Z., Wen, Q., Sun, L., Yao, T., Yin, W., and Jin, R. (2022), Film: Frequency improved legendre memory model for long-term time series forecasting, Advances in Neural Information Processing Systems, 35, 12677-12690. [https://doi.org/10.52202/068431-0921]

저자소개

조광은 : 고려대학교 통계학과에서 2024년 학사 학위를 취득하고, 고려대학교 산업경영공학과에서 석사과정에 재학 중이다. 연구 분야는 Time series forecasting, Time series anomaly detection이다.

황순혁 : 명지대학교 산업경영공학과에서 2021년 학사 학위를 취득하고, 고려대학교 산업경영공학과에서 석박통합과정에 재학 중이다. 연구 분야는 Unsupervised Learning, Domain Adaptation/Generalization이다.

이진우 : 고려대학교 산업경영공학부에서 2023년 학사학위를 취득하고, 2025년 고려대학교 산업경영공학과에서 석사학위를 취득하였다. 현재는 우리은행에 재직 중이다. 연구 분야는 Time Series Forecasting, Diffusion Models이다.

이준범 : 한양대학교 산업경영공학과에서 2024년 학사 학위를 취득하고, 고려대학교 산업경영공학과에서 석사과정에 재학 중이다. 연구 분야는 Reinforcement Learning이다.

최고훈 : ㈜한화 글로벌부문에서 인공지능, 데이터 분석, 컴퓨터 비전, 제조지능화 관련 업무를 수행하고 있다.

방지원 : ㈜한화 글로벌부문에서 인공지능, 시계열 예측, 컴퓨터 비전, 제조지능화 관련 업무를 수행하고 있다.

김성범 : 고려대학교 산업경영공학부 교수로 2009년부터 재직하고 있으며, 인공지능공학연구소 소장, 기업산학연협력센터 센터장, 한국데이터마이닝학회 회장을 역임했다. 미국 University of Texas at Arlington 산업공학과에서 교수를 역임하였으며, 한양대학교 산업공학과에서 학사학위를 미국 Georgia Institute of Technology에서 산업시스템공학 석사 및 박사학위를 취득하였다. 인공지능, 머신러닝, 최적화 방법론을 개발하고 이를 다양한 공학, 자연과학, 사회과학 분야에 응용하는 연구를 수행하고 있다.

Categories	Correlation coefficient with ammonia price		Sampling frequency
Categories	Min.	Max.	Sampling frequency
Urea	0.73	0.88	Week
Oil	0.65	0.76	Day
Fertilizer	0.85	0.93	Week
Economic indicator	0.40	0.41	Week
War risk	0.47	0.56	Week
Caprolactam	0.74	0.77	Week
Ocean freight charge	0.73	0.61	Week
Natural gas	0.38		Week

Model	MAE (↓)		MAPE×100(%) (↓)
Model	8 weeks	12 weeks	8 weeks	12 weeks
SVR	193.41	196.51	32.14	32.55
Random Forest	96.30	128.83	15.23	21.22
XGBoost	118.72	145.06	19.54	24.01
Informer	209.84	249.74	50.85	76.39
DLinear	52.88	140.88	10.12	26.82
PatchTST	62.66	105.54	11.40	19.49
iTransformer	62.88	110.20	12.03	21.24
SHARP (Proposed)	47.88	82.17	8.99	15.48

Model	MAE (↓)		MAPE×100(%) (↓)
Model	8 weeks	12 weeks	8 weeks	12 weeks
w/o Hierarchical Attention	95.07	139.03	18.43	27.34
w/o DILATE	70.81	84.52	13.42	15.65
w/o RevIN	87.26	122.53	17.42	22.32
w/o Channel-Independent	89.29	118.53	17.98	21.86
SHARP(Proposed)	47.88	82.17	8.99	15.48