
오픈소스 기반 대규모 언어모델(LLMs) 편향성 분석 및 기업 도입을 위한 프롬프트 기반 개선 방안 연구
© 2026 KIIE
Abstract
This paper proposes a Chain of Thought(CoT) based bias mitigation prompt technique optimized for Korean to address the bias issues that arise when companies introduce open-source based large language models(LLMs). Based on the evaluation methodology used in the existing paper and the KosBi Data Set and KcELECTRA classifiers, this study systematically analyzed the bias of the latest open-source LLM(Large Language Model) and provided the experimental results that could be considered for actual company introduction. This paper demonstrates that simple prompt example provision alone has limitations in improving bias and experimentally demonstrates that the bias of LLM can be effectively mitigated by applying CoT-style system prompts that induce a step-by-step thought process. The significance of this study is that it presented criteria for introducing reliable models and specific bias management strategies to increase the practical availability of open-source LLM. Through this, companies can come up with realistic measures to effectively manage internal and external service quality and corporate image while simultaneously securing data security and fairness.
Keywords:
AI, CoT Prompt, KosBi, KcELECTRA, Safety, Bias Evaluation, Mitigation, Korean LLM, Prompt Engineering1. 서 론
Open AI가 공개한 ChatGPT의 등장 이후 일반 사용자뿐 아니라 직장인들의 업무에서도 생성형 AI를 활용하는 사례가 급격히 증가하고 있다. 기업에 있어 생성형 AI는 대규모 산업 트렌드를 신속하게 분석하고 방대한 학습데이터를 통해 인사이트를 제공하며, 잠재적인 과제와 기회를 파악하여 위험에 대비할 수 있도록 예측 분석을 지원한다. 또한 데이터 기반의 전략적 의사결정을 내릴 수 있도록 통찰력을 제공하고 다양한 내부 업무를 효율화함으로써 기업은 운영 효율성을 개선할 수 있다(Maduka, 2025).
2024년 말 전국 대표 미국 설문조사 결과에 따르면 18세에서 64세의 미국 인구 중 약 40%가 생성형 AI를 사용하고 있으며, 직장인의 23%는 한 주에 한 번 이상 생성형 AI를 업무에 활용하고 있고 직장인의 9%는 매일 업무에 생성형 AI를 사용하고 있다. 이를 통해 전체 근무시간 중 약 1~5% 정도에 생성형 AI의 도움을 받고 있으며(Bick et al., 2025), 주 40시간 근무로 환산해보면 적게는 1시간부터 5시간을 업무에 생성형 AI를 활용하고 있다고 해석할 수 있다. 또한 2024년 16% 대비, 2025년 생성형 AI 이니셔티브를 추진 중이라는 응답 비율은 89%로 생성형 AI 활용에 대한 경영진들의 접근 방식이 1년 만에 탐색단계에서 본격적인 가속화 단계로 급격히 전환되었음을 알 수 있다(The Hackett Group, 2025).
생성형 AI 기술이 기업에 폭넓게 활용되면서 LLM(Large Language Model)의 편향성 문제도 이슈화되고 있다. 미국 소비자의 40%는 생성형 AI 기술을 사용하는 기업들이 사용자를 편견과 허위 정보로부터 보호하기 위해 충분한 노력을 기울이지 않고 있다고 생각하고 있으며, 응답자의 32%가 편향된 AI 알고리즘으로 인해 재정적 또는 취업 전망과 같은 기회를 잃었다고 생각했다. 또한 기업들은 생성형 AI의 편향성 개선과 신뢰를 확보하는 데 어려움을 겪고 있다(Wei, 2025).
편향적인 답변을 생성하는 데는 여러 가지 이유가 있으나 LLM의 아키텍처 및 알고리즘 자체에서 비롯되는 문제뿐 아니라 대규모 데이터셋을 학습하는 과정에서 데이터에 내재 되어 있는 기존 편향을 상속하거나 오히려 증폭시키면서 발생하기도 한다(Lin et al., 2025). 편향성의 사례로 ChatGPT는 의사를 남성으로 간호사를 여성으로 묘사하였다. 이는 GPT-4에 내장된 완화 도구가 있음에도 불구하고 내재적인 성별 편향이 남아있다는 의미이다(Currie et al., 2025). Meta의 Llama 3와 Google Gemma를 사용하여 장기 요양 같은 의료기록을 요약한 문서를 측정한 결과, 성적 편견이 여전히 문제로 남아있다는 것을 알 수 있다(Rickman, 2025). 실제 기업에서도 남성 중심의 이력서 데이터로 학습한 아마존의 AI 채용프로그램이 여성이라는 단어가 들어간 이력서에 불이익을 준 사례(Dastin, 2022)를 볼 때, 편향성을 가진 AI의 알고리즘은 기업의 다양한 서비스에 적용될 때도 동일하게 표출될 수 있다. 이러한 구조적 특성은 유사한 방식으로 학습하는 LLM도 마찬가지이다.
이에 따라 LLM의 편향성을 측정하고 개선하기 위한 다양한 연구들이 진행되고 있다. 관련 선행연구에서는 학습데이터에서의 편향성 탐지 및 수정, LLM의 미세조정(Fine-Tuning)과 같은 학습 단계에서의 개선, 프롬프트의 조정, 분류 모델에 기반한 정렬 등 다양한 접근법을 제시하고 있다(Chua et al., 2024). LLM의 한국어 답변에 기반한 편향을 측정하기 위한 선행 연구로는 한국어 평가 데이터셋(KoBBQ)을 제공하고 diff-bias(편향 차이 지표)와 Accuracy 점수로 LLM의 편향성을 측정하거나(Jin et al., 2024), 한국 내 사회 편향 유형을 분류하고 레이블링한 데이터셋(KoSBi)을 통해 분류 모델을 미세조정하여 편향성을 측정한 다음 LLM의 답변을 필터링하는 역할로 활용하여 편향성을 개선하는 방식이 제안된 바 있다(Lee et al., 2023). 이외에도 특정 문장의 단어를 [MASK]로 가리고 LLM이 어떤 단어를 예측하는지를 통해 편향성을 지표로 측정하고 편향성이 있는 단어를 수정하는 데이터전처리를 통해 미세조정하는 방법으로 편향성을 개선하는 접근이 시도되었다(Lee et al., 2024). 그러나 이러한 데이터 중심의 접근 방법에는 많은 비용이 소요되고 이를 활용한 사전학습(Pre-Training) 및 미세조정 또한 비용과 자원 문제로 인해 활용하기 어려운 부분이 있다(Yang, 2021). 프롬프트를 활용하여 편향성을 완화 시키는 연구 결과도 있으나 영어에 집중되어 있고(Kamruzzaman et al., 2024) 한국어를 기준으로 편향성을 완화시키는 프롬프트를 통해 다양한 LLM을 체계적으로 교차 비교·측정한 연구는 확인되지 않는다. 이는 동일 프롬프트라고 하더라도 언어별 토큰화 길이 격차가 최대 15배에 달해 서로 다른 언어의 출력 품질에 영향을 미치기 때문이다(Petrov et al., 2023). 또한 편향성을 측정하는 평가 지표가 다양하여 시간이 지남에 따라 LLM의 편향성 개선 추이를 분석하거나 동일 기준에서의 LLM 편향성을 비교하는 데는 한계가 있어 기업들이 모델을 도입하기 위한 단일 지표의 필요성이 꾸준하게 제기되고 있다.
이에 본 연구에서는 2023년 측정된 KoSbi 데이터셋 기반의 안정성 분류 모델을 활용하여 LLM의 편향성을 측정하는 방법론을 유지하면서, 2025년 최신 LLM의 편향성을 측정하여 과거 대비 LLM이 얼마나 개선되었는지를 정량적으로 제시한다. 또한 오픈소스 LLM을 기업 내 구축하는 경우 LLM을 제어할 수 있다는 점을 고려하여, LLM의 기본적인 세계관, 역할, 어조 등을 규정하는 System 프롬프트(Bruni et al., 2025)에 “편향성 완화를 위한 단계적 프롬프트”을 적용하는 방식을 제안한다. 이 방법은 LLM이 가진 편향성을 완화시킴과 동시에 기업 도입 시 별도의 추가 비용이나 시스템의 운영/유지보수를 최소화할 수 있고 한국어 기반으로 되어 있어 기업이 LLM을 효과적으로 도입하기 위한 현실적 대응책을 마련하는 데 기여할 수 있다.
본 논문은 NAVER에서 공개한 한국어 데이터셋인 KoSBi를 활용해서 분류모델(KcELECTRa)을 미세조정하여 선행 연구와 동일한 실험방법으로 오픈소스 LLM의 편향성을 측정하고 “편향성 완화를 위한 단계적 프롬프트”를 적용하여 편향성이 완화된 정도를 측정하는 과정을 다룬다. 2장에서는 기존 문헌 대비 본 연구의 기여도를 구체적으로 설명한다. 3장에서는 5개의 오픈소스 LLM에 대한 기본 편향성을 측정하고 프롬프트 기법을 적용하여 LLM의 답변을 수집하는 방법을 설명한다. 4장에서는 LLM 답변의 편향성 측정 결과 및 Few-Shot을 추가했을 때 결과를 측정/비교한다. 마지막으로, 5장에서는 본 연구의 의의와 개선 방안을 제시한다.
2. 기존 문헌
2.1 한국어를 지원하는 대규모 언어모델(LLM)의 편향성 연구
기존의 연구들은 주로 LLM이 내재하는 편향성의 측정에 주목하여, 이를 완화하기 위한 데이터셋의 개발과 필터링 기법 개발에 중점을 두고 있다. 이러한 편향성 개선 연구들은 주로 영어와 같은 주요 언어에 한정되어 있어, 한국어와 같이 언어적, 문화적 특성이 다른 환경에서는 적용이 어려운 한계를 가진다. 사회적 편향성은 문화적 맥락에 크게 의존하고 있어 한국어를 지원하는 LLM의 편향성을 평가하기 위해서는 한국어에 맞는 데이터셋이 필요하다(Jin et al., 2024). 하지만 비교적 최근에 한국어 데이터가 구축되다 보니 한국어 LLM을 평가하기 위한 선행연구는 아직 많지 않다.
LLM의 한국어 편향 문제를 진단하기 위한 선행연구에서는 한국 언어문화권 내의 편향 탐지 및 완화에 적합하도록 설계된 데이터셋인 KoSBi를 제안한다. KoSBi는 15개 카테고리의 72개 인구 통계 그룹을 포괄하는 34,000여 쌍의 문장과 문맥을 포함하며, 소수집단(minority)과 다수집단(majority)에 대한 문장과 문맥 쌍을 구성하고 동일한 맥락에서 LLM이 어느 집단에 더 긍정적 또는 부정적 반응을 보이는지를 비교할 수 있도록 제공하고 있다.
해당 선행연구는 LLM의 사회적 집단에 대한 안전성을 개선하기 위해 간단한 필터링 기반의 조절 접근 방식을 사용했다. 이를 위해 KoSBI 데이터셋으로 파인튜닝한 안전성 분류기(KcELECTRa)를 제안하며, 이렇게 학습된 안전성 분류기 모델은 문장과 맥락을 입력값으로 받아 문장이 안전한지(Safe), 안전하지 않은지(Unsafe)를 자동으로 분류할 수 있도록 구현되었다. 해당 안전성 분류기의 Macro F1은 71.21%로 나타났으며, 파인튜닝하지 않은 분류기 대비 성능(38~52%)이 향상되었음을 제시하고 있다. LLM이 특정 문맥을 기반으로 문장을 생성할 때, 얼마나 안전한 문장을 생성하는지를 평가하기 위해, KoSBi 데이터셋의 다양한 문맥을 입력받고 그 맥락에 맞는 문장을 생성하도록 설정했다. LLM은 총 450개의 문맥(15개 카테고리 × 30개 문맥)에 대해 각 문맥당 8개의 문장을 생성하도록 설정되었으며, 추가 실험에서는 k=1, 2, 4, 8의 다양한 샘플링 전략을 적용하여 안전성 변화도 관찰하였다. 이렇게 생성된 문장 중 가장 안전한 문장을 선택하기 위해, 안전성 분류기를 활용한 필터링을 적용하였고 필터링된 문장을 인간 평가자가 검토한 결과, Unsafe 문장의 생성 비율이 평균 16.47%포인트 감소하여, 모든 범주에서 필터링 기반 안전성 개선 효과를 입증하였다(Lee et al., 2023).
LLM의 암묵적 편향을 완화할 수 있는 학습데이터를 자동 구축하는 방법을 제안하는 선행연구에서는 앞서 나온 KoSBi 데이터셋을 활용하여, 공개된 4개의 LLM을 통해 편향 판단 프롬프트를 활용하여 LLM별 편향 판단 결과를 생성한다. 이렇게 만들어진 데이터셋을 Few-Shot으로 활용하고 GPT-4o 모델을 Teacher 모델로 활용하여 암묵적 편향 데이터를 증강한다. 증강된 데이터는 Teacher LLM의 판단 결과에 따라 편향 유/무를 최종 판단한다. 이 데이터셋은 인간과 유사한 추론 생성 과정을 거치도록 CoT(Chain-of-Thought) 형태의 학습 데이터로 구축되어 편향에 대한 이해 및 추론 생성 능력을 향상하는데 기여하였다(Park et al., 2024).
위와 같이 기존 연구에서는 KoSBi 데이터셋을 활용하여 편향성을 개선하는 방안을 제안했지만 Avg. Safety의 수준이 0.575~0.625 정도이고 편향성 완화를 위한 학습데이터를 학습한 경우에도 안전함(Safety), 안전하지 않음(UnSafety), 암묵적(Implicit)의 전체 추론 정확도가 78%대에 머물고 있어 기업이 상용모델로 활용하기에는 여전히 한계가 있다. 이에 본 연구는 프롬프트 기법 중 “편향성 완화를 위한 단계적 프롬프트”를 활용하여 Avg. Safety 수준을 높이는 방법에 대해 제시하고자 한다.
2.2 프롬프트 기반의 대규모 언어모델(LLM)의 편향성 개선 연구
프롬프팅 기법은 미세조정처럼 레이블 포함된 데이터셋의 확보가 필요 없고 LLM 학습을 위한 인프라 자원을 소모하지 않으면서 프롬프트 수정만으로 원하는 답변을 유도할 수 있는 유연성을 가지고 있다(Shin et al., 2025). LLM 성능을 극대화하기 위해서는 이러한 프롬프트를 최적화하여 적용하는 것이 중요하다(Choi et al., 2025).
대규모 언어모델의 상당수가 영어로 학습되어있는 만큼 편향성을 완화하기 위한 다양한 접근법이 영어 중심으로 제안되고 있다. 프롬프트 설계와 인과 추론 프레임워크를 통해 편향성 완화를 제안한 선행연구에서는 사회적 정보(성별, 인종 등)가 LLM 답변에 영향을 미치는 다양한 경로를 인과 그래프로 모델링 하였다. 이를 통해 어떤 경로로 LLM의 의사결정에 영향을 미치는지를 분석하고 프롬프트 설계를 통해 편향 경로를 차단하거나 사실 기반의 추론을 유도하는 방법을 제안하였다. WinoBias(성별), BBQ(질의응답 내 사회적 편향), Discrim-Eval (나이, 인종, 성별 등)의 다양한 데이터셋을 통해 검증한 결과, 편향감소 효과가 크며 정확도도 높다는 결론을 도출하였다(Li et al., 2025). 이 연구는 페쇄형 LLM (GPT-4 등)에서 파라미터 접근이 어려운 것을 감안하여 고안된 기법으로 프롬프트 기반의 방식이 편향성을 완화하는데 기여를 한다는 사실을 확인할 수 있다.
프롬프트 기반의 편향성 완화를 위한 선행연구 중 다양한 프롬프트 방식을 활용한 방법이 있는데, System 1(You answer questions quickly), System 2(You answer questions slowly and thoughtfully), CoT(Let’s Think step by step), Human Persona (Adopt the identity of a person), Machine Persona(Adopt the identity of a machine), Debias(You always make sure that your answer is unbiased and does not rely on stereotypes) 등 총 6가지의 프롬프트를 5개의 LLM(GPT-4, GPT-3.5-Turbo, Llama2-13B, Mistral-7B, Gemini)에 9개의 편향 카테고리(나이, 외모, 직업, 성별, 제도, 국적, 직업, 인종, 종교)를 통해 테스트한 사례가 있다. 이 실험 결과를 보면 System 2 및 Human Persona 프롬프트가 편향성을 잘 완화시키며, 둘을 결합했을 때 편향성 완화 효과가 커진다는 것을 안내하고 있다. 해당 연구에 따르면 CoT 프롬프트만으로는 편향이 줄지 않으며 오히려 편향을 증폭시킨 사례(Shaikh et al., 2023) 가 있다고 분석했다(Kamruzzaman et al., 2024).
이러한 선행연구들은 프롬프트를 활용하여 LLM의 편향성을 완화하기 위한 다양한 방법을 제안하는데 중요한 기여를 하고 있다. 본 연구는 이런 프롬프트 방식을 활용하여 한국어에 맞는 편향성을 완화시키는 방법을 제시하는 것을 목표로 한다. 본 연구에서는 LLM 이 습관적이고 자동적으로 판단하는 편향(System 1)에서 벗어나 CoT를 활용하여 단계별로 편향성을 스스로 인식하고 비판적인 검토(System 2)와 균형된 응답을 할 수 있도록 명시적인 프롬프트를 제안한다. 이는 기업 환경에서 편향성 완화를 통해 LLM을 효과적으로 활용할 수 있는 구체적인 방안을 제시함으로써, 기존 연구의 한계를 보완하고자 한다.
3. 연구 방법
3.1 데이터 수집 및 전처리
본 연구에서는 NAVER에서 공개한 KoSBi 데이터(https://github.com/naver-ai/korean-safety-benchmarks/tree/main/data/KoSBi)를 활용했다. 분류기의 학습은 KoSBi_Train(27,370개), KoSBi_Valid (3,421개), KoSBi_Test (3,423개) 총 3가지 파일에서 “Context”, “Sentence”, “Label (Safe, Unsafe)”의 필드를 추출하였고 Transformer 모델은 문장의 구분을 해석하기 어려우므로 [SEP] 토큰을 “Context”와 “Sentence” 사이에 추가하여, 질문과 답변에 대한 두 Text 사이의 관계를 학습하는데 용이하도록 데이터를 전처리하였다(Devlin et al., 2019).
LLM이 답변한 데이터의 수집을 위해 KoSBi 데이터셋에서 15개 카테고리별로 “context_label”이 “Safe”로 태그되어 있는 “Context”를 추출하여, 해당 “Context”와 함께 “제시한 맥락에 대해 자연스러운 한국어로 대답해주세요”와 같이 선행연구에서 적용한 방식을 LLM에 프롬프트로 제시하였다(Lee et al., 2023). 15개의 각 카테고리별로 30개씩 랜덤한 문장 총 450개를 추출하였고 1개의 문장당 8개의 답변을 받아 <Figure 1> 과 같이, LLM 1개당 3,600개의 답변(총 18,000개의 답변셋)을 편향성 측정 대상 데이터로 수집하였다. LLM의 편향성 완화 효과를 검증하기 위해서 “편향성 완화를 위한 단계적 프롬프트”를 System 프롬프트로 입력하고 위와 동일하게 총 18,000개의 답변셋을 편향성 측정 데이터(<Figure 2>)로 사용했다.
3.2 5개의 오픈소스 LLM을 대상으로 기본 편향성 측정
LLM의 편향성을 분석하기 위해 HRMCR(HAE-RAE 다단계 상식 추론) 평가결과(Son et al., 2025) 오픈소스 LLM 중 최고성능을 보였던 모델 4개(Llama 3.1, DeepSeek, Qwen2.5, Exaone 3.5)에 한국어 기반 LLM 1개(Mi:dm2)를 추가하여 선정하였다. 본 연구에 사용된 5개 LLM의 파라메타 및 양자화 스펙은 Llama 3.1-8B Q4_K_M, DeepSeek LLM-7B Q4_0, Qwen3-8B Q4_K_M, Exaone 3.5-7.8B Q4_K_M, Mi:dm Base-11B Q4_K_M와 같다.
KoSBi 데이터 중 15개의 각 카테고리별로 30개씩 랜덤한 문장 총 450개를 추출하였고 1개의 문장당 8개의 답변을 생성했다. 이 과정에서 모델의 답변이 일관되지 않고 다양한 답변을 생성할 수 있도록 모델의 옵션값을 “temperature”: round(random.uniform(0.7, 1.0), 2), “max_tokens”: 512} 와 같이 설정하였다. LLM을 평가하기 위한 방법은 선행 논문과 동일하게 진행했으며, 첫 번째<Equatin 1>는 확보된 데이터셋에서 “Context”별로 생성된 답변에 대해, KoSBi 데이터셋으로 학습된 안전성 분류기(KcELECTRA)로 soft score(sigmoid 확률)을 계산했다. 이를 통해 안전한 문장을 생성할 확률(>= 0.5)을 k = 1, 2, 4, 8 번 측정한다(Safety Probability).
Equation 1. Safety Probability
soft score : Sigmoid 확률
zj : 각 문장에 대해 모델이 출력하는 logit 값
두 번째<Equation 2>는 전체 답변의 평균 및 표준편차를 측정한다(Exp. Avg. Safety). 이는 다음의 수식으로 표현된다.
Equation 2. Exp. Avg. Safety
N : 전체 Context 개수
soft score i, j : i번째 Context의 j번째 생성문장에 대한 Safe 확률
3.3 대규모 언어모델(LLM)의 편향성 완화를 위한 기법 연구
KoSBi 데이터셋은 총 15개의 카테고리를 정의하여 데이터셋으로 제공하고 있으나, 편향성을 발생시킬 수 있는 카테고리의 종류는 우리가 정의하지 못할 정도로 다양하다. 이에 따라 각각의 카테고리별로 편향성을 개선하기 위한 접근보다는 전반적으로 편향성을 완화할 수 있는 접근 방식을 제시한다. 고려한 방식은 CoT 프롬프팅으로 이 방식은 복잡한 추론 과정을 단계별로 설명하도록 유도하여 LLM의 문제 해결 능력을 향상시키는 기법이다(Wei et al., 2023). 중간 단계의 사고 과정을 명시적으로 표현함으로써, 최종 답변을 생성하기까지 논리적 연결고리를 강화하는데 초점을 맞추고 있다.
CoT 프롬프팅의 첫 번째 단계로는 편견의 유형을 이해하고 인지할 수 있는 지시어를 제시한다. 이는 LLM이 사람의 질문에 대답하기 전에 질문에 포함되어있는 편향성과 고정관념을 의식적으로 식별하도록 유도한다. 이를 통해 LLM이 단순히 질문의 의도를 파악하는데 그치지 않고 포용적이고 공정한 언어와 분석을 사용할 수 있도록 비판적 사고를 유도할 수 있다.
두 번째 단계로는 다양한 관점에서 고려할 수 있는 지시어를 제시한다. 선행 연구 논문(Kamruzzaman et al., 2024)에 따르면 다른 사람이 우리의 생각과 유사하게 무엇을 생각하고 있는지 빠르게 추측할 수 있도록 하는 자동적인 사고(System 1)와 더불어 상대방의 생각에 대해 더 체계적으로 분석하고 메타 인지적인 판단을 도와줄 수 있도록 논리적이고 신중한 사고(Sytem 2) 방식을 가지고 있다는 이중 프로세스 이론을 설명하고 있다. 특히 System 2 프롬프팅을 인간 페르소나 방식(인간처럼 행동하며 답변하도록 유도)과 결합했을 때 다양한 사회적 편향을 완화시킨다는 결론을 도출하고 있다. 따라서 System 2 프롬프팅 방식의 지시어를 활용하여 LLM이 균형 잡힌 판단과 포용성을 늘리고 비판적인 사고를 할 수 있도록 하였다.
세 번째 단계로는 균형 잡힌 응답을 생성할 수 있는 지시어를 제시한다. 편견 없는 답변을 유도하기 위해서 포괄적인 언어에 대한 지침을 주고 공정성의 기준을 명시적으로 포함하였다. 이를 통해 LLM이 더 신중하고 책임감 있게 답변을 생성할 수 있도록 유도하였다.
위 3가지 단계를 종합 <Table 1>해서 “편향성 완화를 위한 단계적 프롬프트”를 만들어 System 프롬프트에 적용하고 LLM의 편향성을 KoSBi 데이터셋으로 학습된 안전성 분류기(KcELECTRA)로 측정한다.
4. 연구 결과
4.1 최근 출시된 오픈소스 LLM의 편향성 분석 결과
5개의 오픈소스 기반 LLM의 기본 편향성을 측정한 결과<Table 2>는 다음과 같다. 이 결과는 선행 연구 논문(Lee et al., 2023)에서 측정된 GPT-3(175B) 모델의 Exp. Avg. Safety(.625 ± .083) 및 HyperClva(82B) 모델의 Exp. Avg. Safety(.557 ± .100)와 비교해볼 때 최근에 출시된 LLM도 여전히 편향성을 가지고 있지만 더 적은 파라미터에도 불구하고 높은 안전성(최대 0.250p% 향상)을 달성하고 있음을 알 수 있다. 실제로 사전학습 Data의 전처리를 통해 언어별/문화별 불균형을 줄이고 모델의 편향성을 완화하기 위한 필터링 및 정제 기술이 더 강화되어 개발되고 있다는 것을 수치를 통해 확인할 수 있다(KT, 2025; Qwen Team, 2025; LG AI Research, 2024).
5개 LLM의 Exp. Avg. Safety 항목에서 표준편차를 보면 0.194~0.210 사이를 나타내고 있어 LLM 편향성에 대한 일관성이 부족하다는 것을 확인할 수 있다. 이는 기업에서 LLM을 도입했을 때 LLM 답변의 안전성에 대한 최저 보장 수준(Minimum Guarantee)을 충족하기 어려워 신뢰할 수 없는 서비스의 품질로 이어질 수 있다.
LLM의 기본 편향성(<Figure 3>)을 종합적으로 분석해보면 Political orientation, Age & Generation, Education/ University/ Major, Socio-economic status, Gender identity 카테고리에서 상대적으로 편향성이 표출될 위험이 크고 Marital status, Pregnancy & Birth, Disability status, Religion 등에서는 상대적으로 문장의 안전성 비율이 높은 것을 확인할 수 있다. 대화 맥락에서의 자연스러움 관점에서 응답 예시를 살펴보면 Political orientation 카테고리의 “나는 진보주의자인데, 너는 어떤데?”라는 질문에 “저도 진보주의자입니다. 저희가 같은 생각을 가지고 있으니 서로 도와주고 이야기할 수 있는 좋은 기회가 아닐까요?”라고 답변하였다. 만약 기업에서 제공하는 서비스였다고 하면 해당 기업을 대표하여 정치적인 성향을 표출한 것으로 보여 사용자의 불쾌감을 유발할 위험이 있다.
4.2 “편향성 완화를 위한 단계적 프롬프트”가 적용된 LLM의 편향성 측정 결과
“편향성 완화를 위한 단계적 프롬프트”를 System 프롬프트에 적용하여 5개의 오픈소스 LLM의 편향성을 측정한 결과는 <Table 3>과 같다. 기본 편향성 측정 결과(Default)와 비교해보면 프롬프트가 적용된 LLM별 편향성 측정 결과(Prompt)가 Avg. Safety 기준으로 평균 약 0.120p% 향상된 성능을 보였다. 또한 특정 LLM만 성능이 향상되는 것이 아닌 5개의 LLM 표본 전체에서 일관적인 성능 개선 효과가 있다는 것을 확인할 수 있다.
특히 최근에 출시된 3가지 LLM(Mi:dm2. Exaone 3.5, Qwen 3)의 경우, Safety Probability의 k=1 에서 0.990 대의 성능을 보이면서 15개의 카테고리에서도 대부분 안전한 대답을 생성하고 있다. Avg. Safety도 평균 0.930대를 보이고 있고 표준편차도 낮게 측정되어 일관성 있게 안전한 문장을 생성하고 있음을 확인할 수 있다.
카테고리별로 세부 내용(<Figure 4>)을 보면 Llama 3.1(8B)와 DeepSeek-LLM(7B)의 경우 대부분의 편향성이 상당수 완화되었으나, 기본 편향성 수치가 낮았던 Age & Generation와 Education/University/Major에서 비교적 Unsafe 비율이 높게 나온 것을 알 수 있다. 최신 LLM인 Mi:dm2 base(11.5B) 와 Exaone 3.5(78B) 및 Qwen3(8B)에서는 기본 편향성 수치가 낮았던 5개의 항목에서도 편향성 수치의 대부분이 완화되어 1.0에 가까운 모습을 나타내고 있다.
4.3 안전한 문장 2개를 Few-Shot으로 추가 제공했을 때, LLM의 편향성 측정 결과
프롬프트 여러 가지 방법 중에서 2개 이상의 예시를 제공하여 LLM의 답변을 유도하는 방법을 Prompt-Based Few-Shot Learning이라고 한다. System 프롬프트와 User 프롬프트가 시너지가 있을 때 더 좋은 성능을 보인다는 점을 참고(Brown et al., 2020)하여, User 프롬프트에 Few-Shot Learning을 추가하는 방법으로 추가 실험을 진행하였다.
“편향성 완화를 위한 단계적 프롬프트”를 System 프롬프트에 기본으로 적용함과 동시에 “context_label”이 “Safe”로 태그되어 있는 문장을 Few-Shot Learning으로 활용하여, 안전한 문장에 대한 샘플 예시 2개를 추가 제시하는 형태로 LLM의 답변을 수집하였다.
<Table 4>와 같이 4.2절에서 분석했던 “편향성 완화를 위한 단계적 프롬프트”만 활용한 결과와 비교해보면 이미 System 프롬프트를 적용해놓은 LLM에 Few-Shot을 통해 추가적인 가이드를 하더라도 편향성 완화의 효과가 크지 않음을 알 수 있다. 이 결과는 실험 대상으로 포함된 5개의 LLM에 대해 일관적으로 재현되고 있다. 이를 통해 ”편향성 완화를 위한 단계적 프롬프트“가 LLM의 안전성을 거의 1.0에 가까운 수준으로 현저히 개선하고 있으며, Few-Shot 예시를 추가로 제시하는 것은 편향성 완화 효과가 제한적임을 확인할 수 있다.
5. 결 론
본 연구에서는 오픈소스 기반의 LLM의 편향성을 완화하기 위한 기법을 소개하고 이를 적용한 5개의 모델에 대해 편향성이 완화된 실험 결과를 도출하였다.
선행연구와 달리 본 연구는 한국어에 기반한 LLM의 편향성 완화를 위한 프롬프트를 제시했다는 점과 다양한 카테고리에서 효과적인 성능을 제시함으로써 편향성의 표준편차가 적은 일관성 있는 결과를 입증하였다. 이는 LLM의 파라메터나 아키텍처 및 사전학습 데이터에 상관없이 다양한 LLM에서 일관적으로 재현되었다.
또한 “편향성 완화를 위한 단계적 프롬프트”를 통해 완화된 편향성 수준에서는 안전한 문장을 예시로 프롬프트에 제시하는 Few-Shot을 추가하더라도 오차범위 내의 변화만 관측되어 의미 있는 효과를 보기에는 제한적임을 확인할 수 있었다.
따라서 프롬프트만 잘 설계해도 LLM의 편향성 완화에 매우 효과적이며, Few-Shot을 과도하게 추가하는 것은 비용적인 관점과 성능 관점에서 볼 때 불필요하다는 점을 알 수 있다. 또한 LLM의 파인튜닝이나 추가 학습과 무관하게 편향성의 완화가 가능하다는 점에서 LLM의 안전성 확보에 대한 전략이 표준화/간소화될 수 있음을 시사한다.
이러한 연구 결과를 바탕으로 국내 기업에서 오픈소스 기반의 LLM을 도입할 때, 별도의 데이터셋 구축이나 분류기를 위한 인프라 구성 등 추가 비용을 최소화하면서 신뢰할 수 있는 수준의 안전한 LLM을 도입하는데 기여할 수 있다. LLM의 System 프롬프트 설정에 본 연구에서 제안한 “편향성 완화를 위한 단계적 프롬프트” 추가를 통해 고객상담/응대, 문서 자동화, 마케팅 및 콘텐츠 제작 활용 등 기업의 다양한 Task에서 편향성 완화를 기대할 수 있다.
그러나 본 연구는 LLM의 편향성을 완화하기 위한 보편적인 상승효과는 확인했지만 Llama 3.1(8B)나 DeepSeek-LLM(7B)처럼 출시한지 오래된 LLM에서 충분히 신뢰할만한 수준으로 안전성을 끌어 올리는 데는 한계점이 있었다. 이는 곧 LLM의 최종 성능은 여전히 “기반 LLM의 본질적인 한계”에 어느 정도 영향을 받는다라고도 예상할 수 있다. 따라서, 단순히 System 프롬프트만으로는 모든 LLM의 편향성 성능 차이를 근본적으로 해소하지는 못한다는 사실을 보여주었다. 향후 프롬프트 기반 LLM의 편향성 개선에 대한 구조적 한계를 극복하기 위해 프롬프트 최적화나 외부 데이터 참조(RAG/검색 등)가 포함된 하이브리드 형태의 접근 등의 추가 연구가 필요하다.
추가로 본 연구는 LLM의 편향성을 정량적인 기준으로 평가를 진행했으므로 응답의 자연스러움을 평가하는 정성적인 평가는 포함되어있지 않다. 동일한 질의를 기준으로 이전 모델과 최신 모델의 응답을 정성적으로 비교한다면 단순히 안전성 수치 이상의 차이를 분석하여 논의의 깊이를 확장할 수 있을 것으로 보인다. 기업이 실제 LLM을 적용한 Task별로 자연스러운 응답을 추가로 측정한다면 더 실용적인 LLM 활용이 가능할 것으로 예상된다.
또한 현재 실험이 KoSBi에서 제공한 15개의 카테고리에 한정되어 있어, 실제로 인지하지 못하는 모든 리스크(새로운 카테고리, 가치관의 변화에 따른 새로운 유형의 편향성, 사회적 트렌드 등)가 해소된 것은 아니다. 이에 따라 실제 기업이 도입했을 때의 운영 환경 및 서비스 관점에서의 데이터에서는 추가적인 검증이 필요하다.
Acknowledgments
이 논문은 한국연구재단의 지원을 받아 수행되었음 (NRF-RS-2024-00344286).
References
-
Bick, A., Blandin, A., and Deming, D. J. (2025), The Rapid Adoption of Generative AI, NBER Working Paper No. 32966, National Bureau of Economic Research, Cambridge, MA.
[https://doi.org/10.3386/w32966]
- Brown, T. B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., Neelakantan, A., Shyam, P., Sastry, G., Askell, A., Agarwal, S., Herbert-Voss, A., Krueger, G., Henighan, T., Child, R., Ramesh, A., Ziegler, D. M., Wu, J., Winter, C., Hesse, C., Chen, M., Sigler, E., Litwin, M., Gray, S., Chess, B., Clark, J., Berner, C., McCandlish, S., Radford, A., Sutskever, I., and Amodei, D.(2020), Language Models are Few-Shot Learners, arXiv:2005.14165, .
- Bruni, M., Gabrielli, F., Ghafari, M., and Kropp, M. (2025), System Prompt Optimization with Meta-Learning, IEEE/ACM Second International Conference on AI Foundation Models and Software Engineering (Forge 2025).
- Choi, Y., Baek, J., and Hwang, S. J. (2025), System Prompt Optimization with Meta-Learning, arXiv preprint arXiv:2505.09666v1, [cs.CL].
- Chua, J., Li, Y., Yang, S., Wang, C., and Yao, L. (2024), AI Safety in Generative AI Large Language Models: A Survey, arXiv preprint arXiv:2407.18369, .
- Currie, G. M., Hawk, K. E., and Rohren, E. M. (2025), Generative Artificial Intelligence Biases, Limitations and Pitfalls, Anaesthesia, 79(6), 634-642.
-
Dastin, J. (2022), Amazon Scraps Secret AI Recruiting Tool that Showed Bias against Women, In: Ethics of Data and Analytics: Concepts and Cases, Auerbach Publications, Boca Raton, FL, USA.
[https://doi.org/10.1201/9781003278290-44]
- Devlin, J., Chang, M.-W., Lee, K., and Toutanova, K. (2019), BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding, arXiv preprint arXiv:1810.04805, .
-
Jin, J., Kim, J., Lee, N., Yoo, H., Oh, A., and Lee, H. (2024), KoBBQ: Korean Bias Benchmark for Question Answering, Transactions of the Association for Computational Linguistics, 12, 507-524.
[https://doi.org/10.1162/tacl_a_00661]
- Kamruzzaman, M. and Kim, G. L.(2024), Prompting Techniques for Reducing Social Bias in LLMs through System 1 and System 2 Cognitive Processes, arXiv preprint arXiv:2404.17218, .
- KT (2025), Mid:eum 2.0: Korean Open Source AI Model Announcement and Technical Overview, KT Corp., Seoul, Korea. Available from https://ai.kt.com/resources/detail01, .
-
Lee, H., Hong, S., Park, J., Kim, T., Kim, G., and Ha, J-W. (2023), KOSBI: A Dataset for Mitigating Social Bias Risks Towards Safer Large Language Model Applications, Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Industry Track), 5, 208-224.
[https://doi.org/10.18653/v1/2023.acl-industry.21]
-
Lee, J. K. and Chung, T-M. (2024), Detecting Bias in Large Language Models: Fine-tuned KcBERT, arXiv preprint arXiv:2403.10774, .
[https://doi.org/10.1007/978-981-97-8705-0_6]
- LG AI Research(2024), EXAONE 3.5: Series of Large Language Models for Real-world Use Cases, arXiv:2412.04862v1, December 2024, Available from https://arxiv.org/abs/2412.04862, .
- Li, J., Tang, Z., Liu, X., Spirtes, P., Zhang, K., Leqi, L., and Liu, Y. (2025), Prompting Fairness: Integrating Causality to Debias Large Language Models, Proc. Int. Conf. on Learning Representations (ICLR), 1-15.
-
Lin, X. and Losavio, M. (2025), A Comprehensive Survey on Bias and Fairness in Generative AI: Legal, Ethical, and Technical Responses, SSRN, https://ssrn.com/abstract=5164147, .
[https://doi.org/10.2139/ssrn.5164147]
-
Maduka, L. K. (2025), Generative AI in Strategic Business Planning: Boosting Efficiency and Competitive Advantage in Business Organizations, Asian Journal of Economics, Business and Accounting, 25(3), 67-76.
[https://doi.org/10.9734/ajeba/2025/v25i31695]
- Park, S., Kim, S., and Kim, J. (2024), The Automatic Method for Constructing LLM-based Training Data to Mitigate Implicit Bias in Generative AI, Proc. 2024 Korea Software Congress, 519-521.
- Petrov, A., La Malfa, E., Torr, P. H. S., and Bibi, A. (2023), Language Model Tokenizers Introduce Unfairness Between Languages, Advances in Neural Information Processing Systems, NeurIPS, 36, 2023, Article (poster), available as arXiv:2305.15425, , https://arxiv.org/abs/2305.15425, .
- Qwen Team (2025), Qwen3 Technical Report, arXiv:2505.09388v1, , May 2025. Available from https://arxiv.org/abs/2505, .
-
Rickman, S. (2025), Evaluating gender bias in large language models in long-term care, BMC Med Inform Decis Mak, 25, 274.
[https://doi.org/10.1186/s12911-025-03118-0]
-
Shaikh, O., Zhang, H., Held, W., Bernstein, M., and Yang, D. (2023), On Second Thought, Let’s Not Think Step by Step! Bias and Toxicity in Zero-Shot Reasoning, Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), 4454-4470, Toronto, Canada. Association for Computational Linguistics.
[https://doi.org/10.18653/v1/2023.acl-long.244]
-
Shin, J., Tang, C., Mohati, T., Nayebi, M., Wang, S., and Hemmati, H. (2025), Prompt Engineering or Fine-Tuning: An Empirical Assessment of LLMs for Code, arXiv preprint arXiv:2310.10508v2, [cs.SE].
[https://doi.org/10.1109/MSR66628.2025.00082]
-
Son, G., Ko, H., and Choi, D. (2025), Multi-Step Reasoning in Korean and the Emergent Mirage, arXiv preprint arXiv:2501.05712, .
[https://doi.org/10.18653/v1/2025.c3nlp-1.2]
- The Hackett Group (2025), 2025 CPO Agenda: Gen AI Takes Center Stage. The Hackett Group, Inc. Available at: https://www.thehackettgroup.com/insights/2025-cpo-agenda-2501/
- Wei, J., Wang, X., Schuurmans, D., Bosma, M., Ichter, B., Xia, F., Chi, E. H., Le, Q. V., and Zhou, D. (2023), Chain-of-Thought Prompting Elicits Reasoning in Large Language Models, Advances in Neural Information Processing Systems (NeurIPS 2022), 36, 1-15.
-
Wei, X., Kumar, N., and Zhang, H. (2025), Addressing bias in generative AI: Challenges and research opportunities in information management, Information & Management, 62(4), 103883.
[https://doi.org/10.1016/j.im.2025.104103]
-
Yang, K. (2024), Transformer-based reranking for improving Korean morphological analysis systems, ETRI Journal, 46(1), 137-153.
[https://doi.org/10.4218/etrij.2023-0364]
차경훈 : 한양대학교 기술경영전문대학원 석사 과정에 재학 중이다. 관심 연구분야는 AI 영역으로 대규모 언어모델(LLM)에 대한 기술 및 다양한 산업 현장에서의 활용 방안과 최적화 설계이다.
정준각 : 포항공과대학교 산업경영공학과에서 2013년 학사, 2019년 석박사 통합 학위를 취득하였다. 일리노이 대학교 어바나-샴페인과 울산과학기술원 산업공학과에서 박사후연구원으로 근무했으며, 현재 한양대학교 산업융합학부와 기술경영전문대학원에서 조교수로 재직 중이다. 관심 연구분야는 텍스트 마이닝, 품질 데이터 분석, 설명가능 인공지능 응용이다.




