[Day 7] Optimization

[Day 7] Optimization

2021. 8. 10. 22:02ㆍAI 부스트캠프

내가 생각하는 딥러닝 모델링 과정에서 가장 중요한 작업이다. 오늘은 최적화에 대해서 알아보려고 한다.

Generalization
- train_set을 잘 학습시켰다고 해서 test_set이 잘 학습된다고 할 수 없다. 이 두개의 set 차이를 generalization gap 이라고 한다
Underfitting & Overfitting
- test_set에 대해서 너무 잘 예측된다면, 그 set에서만 좋을 가능성도 높다. 이런 경우를 overfitting, 반대의 경우를 underfitting이라고 한다.
Cross-validation
- test_set을 쓰기전, 결과를 미리 판단하기위해 train_set에서 subset으로 나눠 한 set을 validation으로 두고 판단한다. 이 때, 데이터의 수가 제한적이라면 k-fold 방법을 대개 사용한다.
- k-fold : train_set을 n개의(지정가능) subset으로 나눠서 하나의 subset을 validation_set으로 두고 나머지를 train_set으로 둔다. 이 때 input을 train_set만을 이용, test 할때 validation_set을 이용한다.
Bias & Variance
- Bias : 목표 타겟에 얼마나 집중되어있나
- variance : 한곳에 얼마나 집중되어있나
Bagging & Bossting
- Bagging : 학습데이터를 여러개 만들어서(random하게) output으로 나온값들의 평균 >>> 앙상블기법 >>> 병렬적임
- boosting : 간단한 모델을 하나 만들고 그 모델에 대해서만 딥러닝을 수행한다 >> 만약 100개의 데이터중 20개에 대해서 예측을 잘 못한다면 >>> 예측이 잘 안된 데이터셋으로만 다시 모델을 만든다 >>> 반복! >>> 하나의 모델처럼 처리된다

AA(AI & Algorithm)