[논문 리뷰] Interpretable Sexism Detection with Explainable Transformers

Posted Sep 3, 2025 Updated Sep 3, 2025

By jeongho0715

6 min read

논문 정리

서론

인터넷의 발전과 함께 성차별, 인종차별 등을 포함한 혐오 표현도 증가.
혐오 표현를 식별하는 것은 맥락, 방식, 방대한 양 등으로 인해 어려운 문제임.
NLP의 발전으로 혐오 표현 탐지가 연구되고 있으나 interpretability가 부족해 신뢰 낮음.
ML, DL(LSTM, BiLSTM, CNN-BiLSTM), transformer(XLM-R, RoBERTa, XLNet, GPT2) 기반 모델을 사용해 탐지 시도.
추가로 설명 가능한 AI(XAI) 기법인 LIME 사용해 봄.

데이터셋

SemEval-2023 Task10
Gab, Reddit에서 수집된 성차별적/비성차별적 라벨링된 20,000개의 SNS 게시물.
성차별적 게시글과 성차별적이지 않은 게시글의 비율을 1:4임.
train/validation/test 비율은 7:1:2로 설정되어 있음.
실제로 라벨링된 데이터는 train 데이터 뿐이므로, train 데이터를 다시 65:10:25 비율로 나누어 사용함.

선행 연구

ML을 통한 혐오 표현 탐지 분야 유망, 리뷰 논문 부족하기에 더더욱 필요.
기존 접근법들은 블랙박스 모델로, 문장이 성차별적인지 아닌지는 설명하지 못함.

실험 설계

ML

LR, SVM, XGBoost, RF 활용.
Feature engineering: Uni-gram, bi-gram, TF-IDF, word embedding 활용.

DL

LSTM, BiLSTM, CNN-BiLSTM 활용.
LSTM: 순차적 의존성 처리.
BiLSTM: 양방향 처리, 문맥 이해 강화.
CNN-BiLSTM: 특징 추출, 장기의존성 포착.
설정: optimizer=Adam, batch=128

Transformer 기반 모델

BERT, DistilBERT, XLM-R, RoBERTa, XLNet, GPT-2 활용.
BERT: bert-base-uncased
DistilBERT: distilbert-base-uncased
RoBERTa: cardiffnlp/twitter-roberta-base-hate
XLM-R: xlm-roberta-base
BERT, DistilBERT, XLM-R, RoBERTa 설정: lr=1e-5, optimizer=AdamW, batch=32
XLNet: lr=2e-5, batch=8
GPT-2: lr=5e-5, batch=8

실험

실험 과정

데이터 수집 후 적절한 전처리 수행.
비정형 텍스트에서 특징 추출을 위해 count-vectorization, FastText, TF-IDF 사용.
Uni-gram, bi-gram 모두 고려.
모델 학습 과정에서 데이터 불균형을 해결하기 위해 undersampling, oversampling 적용
성차별, 성차별적이지 않음의 이진분류를 수행하는 Task-A, 구체적으로 차별적 표현 중 어떤 유형(위협, 모욕, 적대, 편견)인지 판단해 다중 클래스 분류를 수행하는 Task-B 수행.

실험 결과

ML

FastText를 word embedding으로 사용했을 때, XGBoost가 가장 높은 F1-score(0.6758) 달성.
Random Forest가 가장 높은 정확도(0.835) 보임.
ML에서 bi-gram을 사용했을 때 복잡한 언어 패턴을 파악하지 못해 가장 낮은 성능 포착.

DL

BiLSTM, LSTM이 동일하게 높은 F1-score(0.74) 달성.
BiLSTM이 가장 높은 정확도(0.8319) 달성.

Transformer 기반 모델

GPT-2가 가장 높은 정확도(0.854)와 F1-score(0.8476) 달성.
이 데이터셋에서 높은 성능을 보인 시스템과 비교했을 때 SOTA에 근접하게 경쟁력 있음(F1-score=0.8746).
LIME을 통해 interpretability를 추가해 차별성 있음.

Task-A

TF-IDF 사용 시 XGBoost가 가장 높은 정확도(0.7868)와 F1-score(0.3328) 보임.
FastText 사용 시에도 XGBoost는 높은 정확도 보이나 F1-score는 전반적으로 낮은 성능 보임.

Task-B

Uni-gram 사용 시 정확도는 RF가 가장 높고(0.792) SVM이 가장 낮았음(0.7368).
F1-score의 경우 SVM이 가장 높고(0.3388) RF가 가장 낮았음(0.3146).
Bi-gram 사용 시에도 RF가 가장 정확도가 높았음.(0.7545)
Bi-gram의 경우 전체적으로 uni-gram보다 성능이 낮음.

Interpretability

SemEval-2023 Task10은 SNS 상의 성차별을 설명 가능하게 탐지하는 것을 목표로 했으나 이해 가능하게 설명하지 못함.
LIME을 통해 모델의 예측 결과와 설명을 읽으면 어떤 텍스트가 성차별적으로 분류되었는지 쉽게 이해할 수 있음.

결론

ML, DL, transformer 기반 모델 간 성능에 차이 존재.
RF가 가장 높은 정확도 보임.
GPT-2는 높은 정확도와 macro F1-score 달성함.
하지만, 기존 모델은 블랙박스 모델로, 본 연구에서는 interpretability 도입.
더 발전된 기법이 존재하지만 일부 기존 연구 성능 능가.

향후 연구

탐지 범주 다양화.
모델을 더욱 세밀하게 개선.
일반화 성능 향상.

추가적으로 확인할 것

SemEval-2023 Task10 말고 다른 데이터에서는 어떨까?
여기서 사용한 모델은 구체적으로 어떤 구조일까?
LIME은 어떤 것일까?
XAI 기법에는 또 어떤 것이 있을까?

참고문헌

Rayhana, S., & Stevens, G. (n.d.). Interpretable Sexism Detection with Explainable Transformers.

논문리뷰, 딥러닝

This post is licensed under CC BY 4.0 by the author.

논문 정리

서론

데이터셋

선행 연구

실험 설계

ML

DL

Transformer 기반 모델

실험

실험 과정

실험 결과

ML

DL

Transformer 기반 모델

Task-A

Task-B

Interpretability

결론

향후 연구

추가적으로 확인할 것

참고문헌

Trending Tags