Study/Data Science
교차 검증(Cross Validation)
MJ_DL
2019. 3. 6. 13:55
교차 검증(Cross Validation)
- 데이터는 5:5 ~ 9:1 비율로 훈련 / 검증 데이터로 분리.
- 훈련 데이터는 모델의 학습 / 검증 데이터에선 평가 척도에 대한 평가.
- 1~2 번을 반복해 검증 데이터에 대한 평균을 구함.
교차 검증 팁
- 데이터를 나누는 기준은 데이터가 클때는 5:5 , 작을 경우 9:1로 나누는게 바람직하다.
- 가장 바람직한 방법은 여러 데이터로 쪼개서 여러 경우에대해 실험하는 경우이다.
- 데이터를 분리할 때는 random_seed 값을 고정.
- 데이터를 분리 할때 레이블(target)이 있는경우 타겟의 비율에 맞게 나눠주는 것이 좋다.
- 시계열 데이터의 경우 학습 데이터는 검증 데이터보다 과거로 설정.
데이터에 관한 팁
- 노말라이즈를 통해 변수값들의 스케일을 조정.
- 이상치를 제거.
- 결측치의 경우 제거를 하거나, 여러 기법을 통해 값을 채워넣는다.
- knn, clustering, 주변 데이터 값들을 이용해서.
- 범주형 데이터의 경우 데이터 형을 변형해 준다.
- 남자,여자 -> 0 , 1