Post

[논문 리뷰] Interpretable Sexism Detection with Explainable Transformers

[논문 리뷰] Interpretable Sexism Detection with Explainable Transformers

논문 정리

서론

  • 인터넷의 발전과 함께 성차별, 인종차별 등을 포함한 혐오 표현도 증가.
  • 혐오 표현를 식별하는 것은 맥락, 방식, 방대한 양 등으로 인해 어려운 문제임.
  • NLP의 발전으로 혐오 표현 탐지가 연구되고 있으나 interpretability가 부족해 신뢰 낮음.
  • ML, DL(LSTM, BiLSTM, CNN-BiLSTM), transformer(XLM-R, RoBERTa, XLNet, GPT2) 기반 모델을 사용해 탐지 시도.
  • 추가로 설명 가능한 AI(XAI) 기법인 LIME 사용해 봄.

데이터셋

  • SemEval-2023 Task10
  • Gab, Reddit에서 수집된 성차별적/비성차별적 라벨링된 20,000개의 SNS 게시물.
  • 성차별적 게시글과 성차별적이지 않은 게시글의 비율을 1:4임.
  • train/validation/test 비율은 7:1:2로 설정되어 있음.
  • 실제로 라벨링된 데이터는 train 데이터 뿐이므로, train 데이터를 다시 65:10:25 비율로 나누어 사용함.

선행 연구

  • ML을 통한 혐오 표현 탐지 분야 유망, 리뷰 논문 부족하기에 더더욱 필요.
  • 기존 접근법들은 블랙박스 모델로, 문장이 성차별적인지 아닌지는 설명하지 못함.

실험 설계

ML

  • LR, SVM, XGBoost, RF 활용.
  • Feature engineering: Uni-gram, bi-gram, TF-IDF, word embedding 활용.

DL

  • LSTM, BiLSTM, CNN-BiLSTM 활용.
  • LSTM: 순차적 의존성 처리.
  • BiLSTM: 양방향 처리, 문맥 이해 강화.
  • CNN-BiLSTM: 특징 추출, 장기의존성 포착.
  • 설정: optimizer=Adam, batch=128

Transformer 기반 모델

  • BERT, DistilBERT, XLM-R, RoBERTa, XLNet, GPT-2 활용.
  • BERT: bert-base-uncased
  • DistilBERT: distilbert-base-uncased
  • RoBERTa: cardiffnlp/twitter-roberta-base-hate
  • XLM-R: xlm-roberta-base
  • BERT, DistilBERT, XLM-R, RoBERTa 설정: lr=1e-5, optimizer=AdamW, batch=32
  • XLNet: lr=2e-5, batch=8
  • GPT-2: lr=5e-5, batch=8

실험

실험 과정

  • 데이터 수집 후 적절한 전처리 수행.
  • 비정형 텍스트에서 특징 추출을 위해 count-vectorization, FastText, TF-IDF 사용.
  • Uni-gram, bi-gram 모두 고려.
  • 모델 학습 과정에서 데이터 불균형을 해결하기 위해 undersampling, oversampling 적용
  • 성차별, 성차별적이지 않음의 이진분류를 수행하는 Task-A, 구체적으로 차별적 표현 중 어떤 유형(위협, 모욕, 적대, 편견)인지 판단해 다중 클래스 분류를 수행하는 Task-B 수행.

실험 결과

ML

  • FastText를 word embedding으로 사용했을 때, XGBoost가 가장 높은 F1-score(0.6758) 달성.
  • Random Forest가 가장 높은 정확도(0.835) 보임.
  • ML에서 bi-gram을 사용했을 때 복잡한 언어 패턴을 파악하지 못해 가장 낮은 성능 포착.

DL

  • BiLSTM, LSTM이 동일하게 높은 F1-score(0.74) 달성.
  • BiLSTM이 가장 높은 정확도(0.8319) 달성.

Transformer 기반 모델

  • GPT-2가 가장 높은 정확도(0.854)와 F1-score(0.8476) 달성.
  • 이 데이터셋에서 높은 성능을 보인 시스템과 비교했을 때 SOTA에 근접하게 경쟁력 있음(F1-score=0.8746).
  • LIME을 통해 interpretability를 추가해 차별성 있음.

Task-A

  • TF-IDF 사용 시 XGBoost가 가장 높은 정확도(0.7868)와 F1-score(0.3328) 보임.
  • FastText 사용 시에도 XGBoost는 높은 정확도 보이나 F1-score는 전반적으로 낮은 성능 보임.

Task-B

  • Uni-gram 사용 시 정확도는 RF가 가장 높고(0.792) SVM이 가장 낮았음(0.7368).
  • F1-score의 경우 SVM이 가장 높고(0.3388) RF가 가장 낮았음(0.3146).
  • Bi-gram 사용 시에도 RF가 가장 정확도가 높았음.(0.7545)
  • Bi-gram의 경우 전체적으로 uni-gram보다 성능이 낮음.

Interpretability

image

  • SemEval-2023 Task10은 SNS 상의 성차별을 설명 가능하게 탐지하는 것을 목표로 했으나 이해 가능하게 설명하지 못함.
  • LIME을 통해 모델의 예측 결과와 설명을 읽으면 어떤 텍스트가 성차별적으로 분류되었는지 쉽게 이해할 수 있음.

결론

  • ML, DL, transformer 기반 모델 간 성능에 차이 존재.
  • RF가 가장 높은 정확도 보임.
  • GPT-2는 높은 정확도와 macro F1-score 달성함.
  • 하지만, 기존 모델은 블랙박스 모델로, 본 연구에서는 interpretability 도입.
  • 더 발전된 기법이 존재하지만 일부 기존 연구 성능 능가.

향후 연구

  • 탐지 범주 다양화.
  • 모델을 더욱 세밀하게 개선.
  • 일반화 성능 향상.

추가적으로 확인할 것

  • SemEval-2023 Task10 말고 다른 데이터에서는 어떨까?
  • 여기서 사용한 모델은 구체적으로 어떤 구조일까?
  • LIME은 어떤 것일까?
  • XAI 기법에는 또 어떤 것이 있을까?

참고문헌

Rayhana, S., & Stevens, G. (n.d.). Interpretable Sexism Detection with Explainable Transformers.

This post is licensed under CC BY 4.0 by the author.