StatsDevBlog

[논문 리뷰] Thinking Fair and Slow: On the Efficacy of Structured Prompts for Debiasing Language Models

논문 정리 서론 LLM은 train 데이터에 있는 편향을 지속하고 재생산함. LLM의 편향 완화 위해 모델 표현을 재학습하거나 추가적인 데이터로 fine-tuning 하는 방법 있음. 하지만 최신 LLM은 대부분 내부 구조나 학습 데이터를 수정하기 어려운 폐쇄형 API 전용 모델임. 오픈소스 LLM을 사용하더라도 충분한 데이터를 수집하...

혼공학습단 후기

혼공학습단 후기 이번에 처음 혼공학습단을 6주 동안 진행했다. 처음에는 조금 가벼운 마음으로 대충 해봐야지 생각을 했는데, 생각보다 대충 하는 것을 실패한 것 같다. 하지만 그렇다고 엄청 자세하게 한 것도 아니고 적당히 하게 된 것 같다. 혼공학습단을 하면 혼공족장?이라는 분이 피드백을 해준다고해서 처음에는 기대를 조금 했었다. 그런데 나중에 보니 ...

[혼공머신] 5주차 06-3 주성분 분석

본 게시글은 한빛미디어의 혼자 공부하는 머신러닝+딥러닝을 바탕으로 작성되었습니다. 차원과 차원 축소 지금까지 우리는 다양한 data를 살펴보았다. Data에는 feature들이 있는데, 예를 들어 회원 data에는 이름, 나이, 성별 등 다양한 feature들이 존재한다. 그런데 한두개라면 상관 없겠으나 지난번에 살펴본 이미지의 경우 feature...

[혼공머신] 5주차 06-1 군집 알고리즘

본 게시글은 한빛미디어의 혼자 공부하는 머신러닝+딥러닝을 바탕으로 작성되었습니다. 비지도 학습 지금까지 우리는 Supervised learning에 대해서 살펴보았었다. 다시 한번 설명하자면, supervised learning은 우리가 친절하게 컴퓨터에게 어떤 문제가 있을 때 친절하게 답을 알려주고 학습을 시키는 것이다. 그와 반면 지금부터 우리...

[혼공머신] 4주차 05-3 트리의 앙상블

본 게시글은 한빛미디어의 혼자 공부하는 머신러닝+딥러닝을 바탕으로 작성되었습니다. 정형 데이터와 비정형 데이터 우리는 data를 분석할 때 다양한 데이터를 보게 된다. 그런데 지금까지 봤던 데이터들은 아무 이쁘게 정리된 데이터들이다. 표로 정리되어 보기도 쉽고, 처리하기도 쉬운 정형화된 데이터들이다. 이러한 데이터는 지금까지 다양한 모델을 사용해서...

[혼공머신] 4주차 05-2 교차검증과 그리드 서치

본 게시글은 한빛미디어의 혼자 공부하는 머신러닝+딥러닝을 바탕으로 작성되었습니다. 검증 세트 우리는 이제까지 학습을 할 때, training set과 test set을 활용해서 학습을 하고 테스트를 하는 식으로 진행을 했었다. 그런데, 이렇게 할 경우 overfitting의 우려를 버릴 수 없다. 이를 방지하기 위해서 training set을 또...