[논문 리뷰] Analysis of Hyperparameter Influence on YOLOv8 Performance in Multimodal Image Sets
[논문 리뷰] Analysis of Hyperparameter Influence on YOLOv8 Performance in Multimodal Image Sets
논문 정리
서론
- YOLO(You Only Look Once): 객체 식별, 위치 파악에 사용, 빠르고 정확.
- 모델의 hyperparameter는 모델의 성능 향상에 중요함.
- 이러한 hyperparameter의 영향은 어떠할까?
목표
- 특정 데이터에서 여러 평가지표(precision, recall, mAP50, mAP50-95)에 대한 3가지 hyperparameter(dropout, batch, single_cls)의 영향 탐색
데이터셋
- 비포장 도로, 포장 도로에서의 차량의 가시광, 열화상 이미지 포함된 9000장의 라벨링된 이미지셋 사용함.
- 다중 센서(가시광, 열화상)로 촬영한 multimodal 이미지셋 활용.
- 비포장 도로, 포장 도로 환경에서 차량 식별이 목표.
- 차량은 자동차, 오토바이, 트럭을 포함.
- 촬영 당시의 빛, 지형과 같은 가변적인 촬영 조건 존재.
실험 설정
- train/validation 비율은 80:20으로 설정.
- Hyperparameter는 수동으로 설정
- Dropout 3가지(0, 0.1, 0.2), batch 2가지(16, 32), single_cls(True, False) 2가지로 총 12가지 조합 실험
- 모두 독립적으로 실험
평가지표별 결과
Precision
- 최고 점수: 0.91879
- 최적 설정: dropout=0.1, batch=16, single_cls=True
- 적당한 dropout과 작은 batch가 FP 최소화
Recall
- 최고 점수: 0.83659
- 최적 설정: dropout=0.2, batch=32, single_cls=True
- 실제 존재하는 객체 식별 능력 높아 FN 줄임
mAP50
- 최고 점수: 0.905
- 다양한 설정에서 일관되게 약 0.905 유지
mAP50-95
- 최고 점수:0.63292
- 최적 설정: dropout=0.1, batch=16, single_cls=True
Hyperparameter별 영향
dropout
- dropout이 높을 수록 mAP50-95 향상
- 그러나 precision의 경우 0.1에서 우수함. 적절한 조정 필요
batch
- batch가 작은 경우 precision 향상
- batch가 클 경우 recall 향상
- 작을 때는 가중치 갱신을 빈번하게 하여 더욱 세밀하게 탐지하지만 큰 경우에는 안정적인 결과 보임
single_cls
- 모든 지표에서 single_cls=True가 우수
- 현재 사용한 multimodal 데이터셋에서도 단일 클래스로 단순화해 탐지하는 것이 효과적이었음.
결론 및 논의
- 단일 클래스 탐지로 작업을 단순화하는 것이 현재 데이터셋에서 효과적임.
- dropout과 batch 조절로 precision과 recall 사이 균형 달성 가능할 것으로 보임.
- 목표에 따라서 hyperparameter 조절을 해야 할 것.
향후 연구
- Optuna와 같은 도구를 사용하면 어떨까?
- 여러 정규화 전략을 시도하면 어떨까?
- 다중 클래스인 경우 어떨까?
- 추가적인 hyperparameter 탐구
추가적으로 확인할 것
- Label Studio로 라벨링을 했다고 하는데, Label Studio를 한 번 사용해보기
- 지금은 총 12개 조합으로 했는데, 너무 범위가 적은 것 같음. 더 넓게 시도해보면 어떨까?
- 가시광, 열화상 이미지의 비율은 어떤가? 비율이 달라지면 결과에 차이가 있을까?
- 데이터셋에서의 차량 비율은 어떨까?, train/validation 데이터는 항상 동일한가?
- YOLO 모델에는 또 어떤 hyperparameter가 있을까?
참고문헌
Silva, J. L., & Nogueira, F. C. (n.d.). Analysis of Hyperparameter Influence on YOLOv8 Performance in Multimodal Image Sets.
This post is licensed under CC BY 4.0 by the author.