[논문 리뷰] Interpretable Sexism Detection with Explainable Transformers
[논문 리뷰] Interpretable Sexism Detection with Explainable Transformers
논문 정리
서론
- 인터넷의 발전과 함께 성차별, 인종차별 등을 포함한 혐오 표현도 증가.
- 혐오 표현를 식별하는 것은 맥락, 방식, 방대한 양 등으로 인해 어려운 문제임.
- NLP의 발전으로 혐오 표현 탐지가 연구되고 있으나 interpretability가 부족해 신뢰 낮음.
- ML, DL(LSTM, BiLSTM, CNN-BiLSTM), transformer(XLM-R, RoBERTa, XLNet, GPT2) 기반 모델을 사용해 탐지 시도.
- 추가로 설명 가능한 AI(XAI) 기법인 LIME 사용해 봄.
데이터셋
- SemEval-2023 Task10
- Gab, Reddit에서 수집된 성차별적/비성차별적 라벨링된 20,000개의 SNS 게시물.
- 성차별적 게시글과 성차별적이지 않은 게시글의 비율을 1:4임.
- train/validation/test 비율은 7:1:2로 설정되어 있음.
- 실제로 라벨링된 데이터는 train 데이터 뿐이므로, train 데이터를 다시 65:10:25 비율로 나누어 사용함.
선행 연구
- ML을 통한 혐오 표현 탐지 분야 유망, 리뷰 논문 부족하기에 더더욱 필요.
- 기존 접근법들은 블랙박스 모델로, 문장이 성차별적인지 아닌지는 설명하지 못함.
실험 설계
ML
- LR, SVM, XGBoost, RF 활용.
- Feature engineering: Uni-gram, bi-gram, TF-IDF, word embedding 활용.
DL
- LSTM, BiLSTM, CNN-BiLSTM 활용.
- LSTM: 순차적 의존성 처리.
- BiLSTM: 양방향 처리, 문맥 이해 강화.
- CNN-BiLSTM: 특징 추출, 장기의존성 포착.
- 설정: optimizer=Adam, batch=128
Transformer 기반 모델
- BERT, DistilBERT, XLM-R, RoBERTa, XLNet, GPT-2 활용.
- BERT: bert-base-uncased
- DistilBERT: distilbert-base-uncased
- RoBERTa: cardiffnlp/twitter-roberta-base-hate
- XLM-R: xlm-roberta-base
- BERT, DistilBERT, XLM-R, RoBERTa 설정: lr=1e-5, optimizer=AdamW, batch=32
- XLNet: lr=2e-5, batch=8
- GPT-2: lr=5e-5, batch=8
실험
실험 과정
- 데이터 수집 후 적절한 전처리 수행.
- 비정형 텍스트에서 특징 추출을 위해 count-vectorization, FastText, TF-IDF 사용.
- Uni-gram, bi-gram 모두 고려.
- 모델 학습 과정에서 데이터 불균형을 해결하기 위해 undersampling, oversampling 적용
- 성차별, 성차별적이지 않음의 이진분류를 수행하는 Task-A, 구체적으로 차별적 표현 중 어떤 유형(위협, 모욕, 적대, 편견)인지 판단해 다중 클래스 분류를 수행하는 Task-B 수행.
실험 결과
ML
- FastText를 word embedding으로 사용했을 때, XGBoost가 가장 높은 F1-score(0.6758) 달성.
- Random Forest가 가장 높은 정확도(0.835) 보임.
- ML에서 bi-gram을 사용했을 때 복잡한 언어 패턴을 파악하지 못해 가장 낮은 성능 포착.
DL
- BiLSTM, LSTM이 동일하게 높은 F1-score(0.74) 달성.
- BiLSTM이 가장 높은 정확도(0.8319) 달성.
Transformer 기반 모델
- GPT-2가 가장 높은 정확도(0.854)와 F1-score(0.8476) 달성.
- 이 데이터셋에서 높은 성능을 보인 시스템과 비교했을 때 SOTA에 근접하게 경쟁력 있음(F1-score=0.8746).
- LIME을 통해 interpretability를 추가해 차별성 있음.
Task-A
- TF-IDF 사용 시 XGBoost가 가장 높은 정확도(0.7868)와 F1-score(0.3328) 보임.
- FastText 사용 시에도 XGBoost는 높은 정확도 보이나 F1-score는 전반적으로 낮은 성능 보임.
Task-B
- Uni-gram 사용 시 정확도는 RF가 가장 높고(0.792) SVM이 가장 낮았음(0.7368).
- F1-score의 경우 SVM이 가장 높고(0.3388) RF가 가장 낮았음(0.3146).
- Bi-gram 사용 시에도 RF가 가장 정확도가 높았음.(0.7545)
- Bi-gram의 경우 전체적으로 uni-gram보다 성능이 낮음.
Interpretability
- SemEval-2023 Task10은 SNS 상의 성차별을 설명 가능하게 탐지하는 것을 목표로 했으나 이해 가능하게 설명하지 못함.
- LIME을 통해 모델의 예측 결과와 설명을 읽으면 어떤 텍스트가 성차별적으로 분류되었는지 쉽게 이해할 수 있음.
결론
- ML, DL, transformer 기반 모델 간 성능에 차이 존재.
- RF가 가장 높은 정확도 보임.
- GPT-2는 높은 정확도와 macro F1-score 달성함.
- 하지만, 기존 모델은 블랙박스 모델로, 본 연구에서는 interpretability 도입.
- 더 발전된 기법이 존재하지만 일부 기존 연구 성능 능가.
향후 연구
- 탐지 범주 다양화.
- 모델을 더욱 세밀하게 개선.
- 일반화 성능 향상.
추가적으로 확인할 것
- SemEval-2023 Task10 말고 다른 데이터에서는 어떨까?
- 여기서 사용한 모델은 구체적으로 어떤 구조일까?
- LIME은 어떤 것일까?
- XAI 기법에는 또 어떤 것이 있을까?
참고문헌
Rayhana, S., & Stevens, G. (n.d.). Interpretable Sexism Detection with Explainable Transformers.
This post is licensed under CC BY 4.0 by the author.