[논문 리뷰] Thinking Fair and Slow: On the Efficacy of Structured Prompts for Debiasing Language Models
[논문 리뷰] Thinking Fair and Slow: On the Efficacy of Structured Prompts for Debiasing Language Models
논문 정리
서론
- LLM은 train 데이터에 있는 편향을 지속하고 재생산함.
- LLM의 편향 완화 위해 모델 표현을 재학습하거나 추가적인 데이터로 fine-tuning 하는 방법 있음.
- 하지만 최신 LLM은 대부분 내부 구조나 학습 데이터를 수정하기 어려운 폐쇄형 API 전용 모델임.
- 오픈소스 LLM을 사용하더라도 충분한 데이터를 수집하는 것은 어려움.
- 모델이나 출력 확률에 접근하지 않고, 즉 프롬프트 기반으로 LLM의 편향을 해결할 수 있을까?
선행 연구
- LLM의 train 데이터는 매우 방대하기에 편향되거나 해로운 데이터를 검증하는 것은 거의 불가능함.
- 최근 연구는 사후적 편향 완화 기법에 집중하기도 했으나, 재학습, 파라미터 접근 등이 필요함.
- 일반적인 프롬프트 엔지니어링 방식은 모델에 지시문을 제공하고 텍스트를 생성하게 하는 것이나 추론 작업에는 한계 존재함.
- Kong et al.: 역할, 페르소나 부여, zero-shot 성능 개선.
- Brown et al.: Few-shot으로 예시를 입력해 모델이 학습하게 함.
- 모델에 중간 추론 단계를 제공하는 Chain-of-Thought를 제공하기도 함.
- LLM이 출력을 생성하고 피드백을 제공받은 후 self-refine하는 방법도 제시됨.
- 프롬프트 엔지니어링 방법은 연구되고 있으나 공정한 텍스트를 생성하기 위한 것은 충분히 연구되지 않음.
- 기존 프롬프트 엔지니어링 연구는 편향 완화에 효과가 미비하다고 보고했으나, 성별 편향 완화 적용 사례 존재.
프롬프트 엔지니어링
Prefix Prompting
- 단순히 입력 프롬프트 앞에 접두어를 추가해 모델에게 “편향되지 말라”고 지시하기.
- 기존의 사용자 입력 프롬프트 $C$가 있을 때 앞에 편향을 완화하게 하는 지시인 $I_{debias}$를 결합함.
Self-Refinement
- 단순히 prefix prompting으로는 부족함.
- k-step 접근으로 모델이 이전 단계의 출력을 참고해 다음 출력을 생성하도록 함.
1단계
- 사용자 입력 프롬프트 $C$가 있을 때, 편향 완화 접두어 $I_{debias}$를 넣어 $C_{debias}$를 입력으로 사용함.
- 이를 통해 편향이 있을 수 있는 텍스트 $S_0$가 생성됨.
2단계
- 1단계에서 출력 $S_0$에 다른 편향 완화 접두어 $I_{SR}$을 추가해 최종 입력 프롬프트 $C_{SR}$을 만듦.
- 최종 입력 프롬프트 $C_{SR}$을 통해 최종적으로 편향이 완화된 텍스트 $S_1$을 얻음.
Implication Prompting
- Self-Refinement 방식은 LLM이 스스로 생성한 출력을 바탕으로 편향되지 않은 텍스트를 만들어야 하기에 부족할 수 있음.
- 이를 위해 LLM이 이전의 출력에 존재하는 편향을 스스로 식별하게 함.
1단계
- 사용자 입력 프롬프트 $C$가 있고, 이를 통해 편향이 있을 수 있는 텍스트 $S$가 생성됨.
2단계
- 모델에게 출력에 존재하는 편향(함의)를 찾도록 하는 지시문인 $I_{Impl}$를 설정함.
- 1단계의 출력인 $S$와 두번째 지시문인 $I_{Impl}$을 결합한 $C_{Impl}$을 입력으로 사용함.
- 결과적으로 1단계의 출력인 $S$에 어떤 편향이 있는지 출력함.
3단계
- 모델에게 편향을 완화하도록 하는 지시문인 $I_{IP}$를 설정함.
- 초기의 편향의 우려가 있는 $S$와 2단계에서 $S$에 존재하는 편향을 식별한 결과인 $S_{Impl}$, 그리고 $I_{IP}$를 결합함.
- 최종적으로 1단계의 출력 $S$와 그 안에 존재하는 편향인 $S_{Impl}$을 바탕으로 편향되지 않게 출력함.
모델 및 실험 환경
- 본 연구에서는 4가지 LLM(GPT-J(6B), Mistral-v0.1(7B), LIama-2(7B), MPT-Instruct(7B))을 사용함.
- 32GB NVIDIA V100 GPU 1개에서 수행.
데이터셋
- 성별, 인종, 종교, 직업에 대한 편향 측정 위한 데이터셋.
- 각 문장은 빈칸이 있는데, 이 빈칸을 고정관념이 있거나, 고정관념에 반대되거나 전혀 무관한 단어로 채울 수 있음.
- 예) 한국인은 _____다. 1) 시끄럽, 2) 조용하, 3) 사과
평가지표
StereoSet
- 성별, 인종, 종교, 직업에 대한 편향 측정 위한 데이터셋.
- 각 문장은 빈칸이 있는데, 이 빈칸을 고정관념이 있거나, 고정관념에 반대되거나 전혀 무관한 단어로 채울 수 있음.
- 예) 한국인은 _____다. 1) 시끄럽, 2) 조용하, 3) 사과
Stereotype Score(SS)
- 고정관념이 있는 문장이 고정관념에 반대되는 문장보다 높은 확률을 가지는 비율.
- 50%가 이상적 수치.
Language Modeling Score(LM)
- 무관한 문장이 가장 낮은 확률을 가질 비율.
- 100%가 이상적 수치.
Idealized Context Association Test Score(ICAT)
- SS와 LM을 결합해 균형을 나타냄.
- 100%가 이상적 수치.
Regard
- 이전에는 감정 분석 분류기를 많이 썼으나, 감정과 편향이 반드시 연결되어 있지 않다는 한계 극복하기 위한 데이터셋.
- 성별, 인종,성적 지향에서의 편향 포착
- 각 인구 집단마다 10개의 프롬프트 템플릿을 구성하고, 각 프롬프트 템플릿마다 10개의 문장 생성.
- 분류기를 사용하여 각 집단의 출력별 regard를 계산.
- 예를 들어 남성의 Regard 점수는 다음과 같이 긍정으로 평가된 응답의 개수에 부정으로 평가된 응답의 개수를 빼고, 전체 응답의 개수로 나누어 구함.
$S_{Male}=\frac{N_{pos}-N_{neg}}{N_{total}}$
- 성별에 대한 최종 Regard 점수를 구한다면, 각 집단, 남성과 여성의 Regard 점수 차이로 구할 수 있음.
$R_{Gender}=S_{Female}-S_{Male}$
- 0이 이상적 수치, 음수면 고정관념 편향, 양수는 고정관념에 반대되는 편향을 의미함.
Toxicity
- 모델의 독성 완화 능력 평가 지표.
- 무작위로 샘플링한 1,000개의 프롬프트에 대해 출력에 독성이 있을 확률 계산.
- 평균 독성 점수는 낮을 수록 좋으며, 기본 모델 대비 독성 변화율은 음수일수록 좋음.
결과
- 모델에게 역할, 페르소나를 부여하는 prefix prompt가 단순한 지시문인 prefix prompt보다 3가지 지표 모두에서 더 뛰어났음.
- 이전 출력을 prefix prompt와 결합할 경우 toxicity를 제외하고 유의미하게 성능 향상됨.
- Self-Refinement를 한 번 했을 경우, 성능 개선이 의미있었으나 2회 이상인 경우 성능 개선 미비함.
- 함의 프롬프트는 모든 방법 중 가장 성능이 뛰어났음.
- 기존 연구에서는 출력 편향이 줄어들수록 언어 모델링 능력이 감소했으나, 여기서는 일관된 결과 없었음.
향후 연구
- 계산 자원 제약으로 대규모 모델이나 Mixture of Experts 모델 실험 못함.
- 시간적 제약으로 Tree-of-Thought, Self-Consistency, Directional Stimulus Prompting과 같은 발전된 프롬프트 기법 탐구 못함.
- 복잡한 사회적 편향을 단순화해 언어 모델 내 모든 편향을 포착하지 못할 수 있음.
- 프롬프트에 의존하기에 LLM 모델이 다르거나 업데이트될 경우 결과가 달라질 수 있음.
참고문헌
Furniturewala, S., Jandial, S., Java, A., Banerjee, P., Shahid, S., Bhatia, S., & Jaidka, K. (2024). Thinking Fair and Slow: On the Efficacy of Structured Prompts for Debiasing Language Models (No. arXiv:2405.10431). arXiv. https://doi.org/10.48550/arXiv.2405.10431
This post is licensed under CC BY 4.0 by the author.