[논문 리뷰] Tune My Adam, Please!
[논문 리뷰] Tune My Adam, Please!
논문 정리
서론
- Hyperparameter Optimization(HPO)은 많은 시간과 비용 필요함.
- Bayesian Optimization(BO)은 효율적이나 여전히 모델 전체 학습이 필요함.
- Freeze-thaw BO은 모델 중 좋을 것 같은 후보만을 계속 학습시키는 방식.
- FT-BO는 실제 모델을 전부 학습하지 않고 일부만 학습한 후, 대리 모델을 사용해서 성능을 예측하는데 실질적으로 hyperparameter가 학습에 어떤 영향을 주는지는 고려하지 않음.
- 한계 극복 위해 PFN을 기반으로 하는 단일 대리 모델인 FT-PFN을 사용하는 ifBO 제안하였으나, 결국 단일 모델만을 사용하기에 다양한 상황에 사용하기엔 한계 존재함.
- 따라서 새로운 대리 모델 Adam-PFN 제안
데이터셋
- TaskSet
- Adam을 최적화된 1,162개의 학습 곡선 포함됨.
- 각 task에는 1,000개의 무작위 hyperparameter 설정에 대한 학습 곡선이 포함됨.
- Log scale에서 균등분포로 샘플링된 learning rate, $\beta_1, \beta_2, \epsilon$, 그리고 L1, L2 정규화 parameter, 학습률 감소 스케줄을 제어하는 두 개의 parameter 포함됨.
학습곡선 증강 기법
- Beta 분포의 CDF를 사용하는 국소적 학습 곡선 증강 기법인 CDF-augment 사용함.
- Beta 분포의 최빈값 $\mu$를 $[0, 1]$ 구간에서, 집중도 $\kappa$를 $[2, 5]$ 구간에서 균등 분포로 샘플링하여 CDF를 구함.
- 학습 곡선 $y$를 CDF를 이용해 forward-propagate함.
- 빠르게 올라가거나 느리게 올라가는 등 다양한 난이도에서의 학습곡선 변형 생성 가능.
대리 모델 학습
- Adam optimizer의 실제 학습 곡선에서 증강된 데이터를 기반으로 하는 PFN임.
- FT-PFN과 파이프라인이 동일하나, 학습 곡선과 hyperparameter 설정을 합성 사전분포로부터 샘플링하지 않고, CDF-augment를 사용한다는 차이 있음.
- 878개의 과제를 선택해 과제마다 1,000개의 서로 다른 hyperparameter 설정을 적용해 학습곡선을 얻음.
- 이렇게 얻은 학습 곡선에서 증강된 학습곡선들을 추가로 얻고 이미 관찰된 곡선 부분과 아직 모르는 곡선의 뒷부분을 나눔.
실험
- 학습에 사용되지 않은 12개 과제를 사용해 새로운 과제에서 얼마나 잘 학습 곡선을 예측하고 HPO를 하는지 평가함.
- 기존 대리 모델인 HyHPO, DPL, FT-PFN, Uniform Predictor과 Adam-PFN 비교함.
- ifBO 프레임워크에 FT-PFN 대신 Adam-PFN을 넣어 성능을 확인함.
- HyperBand, ASHA, GP 기반 Freeze-thaw, Random Search로 HPO 성능 비교함.
- 추가로, CDF-augment의 효과를 보기 위해 또 다른 기법인 Mixup 학습 곡선 증강을 한 것과 증강을 안 한 것을 비교함.
결과
- Adam-PFN을 활용한 경우, Log-likelihood와 MSE 모두에서 다른 기법을 능가함.
- PFN 기반 기법은 사전에 학습되기에 추론 시간이 짧음.
- 얼마나 빨리 적절한 hyperparameter를 찾았는지 보여주는 normalized regret을 봤을 때에도 Adam-PFN이 더 빠르게 높은 성능에 도달함.
- TaskSet과 별개인 Pytorch Examples에서 시험해본 결과 초기 단계에서는 Adam-PFN이 가장 우수했으나 장기적인 탐색 과정에서는 FT-PFN의 성능이 높았음.
향후 연구
- HPO 특화 및 사전 지식을 사용하는
- 탐색 공간과 하이퍼파라미터의 수가 제한되어 있다는 한계 존재.
- 학습 및 평가에 사용되지 않은 hyperparameter를 기본값으로 사용해볼 수 있을 것.
- 새로운 hyperparameter 증강 기법을 사용하기.
- 초기에는 Adam-PFN로 탐색하고 이후에는 FT-PFN로 탐색하거나 둘을 섞는 방법은 어떨까?
참고문헌
Athanasiadis, T., Adriaensen, S., Müller, S., & Hutter, F. (2025). Tune My Adam, Please! (No. arXiv:2508.19733). arXiv. https://doi.org/10.48550/arXiv.2508.19733
This post is licensed under CC BY 4.0 by the author.