교차 검증(Cross Validation)

  1. 데이터는 5:5 ~ 9:1 비율로 훈련 / 검증 데이터로 분리.
  2. 훈련 데이터는 모델의 학습 / 검증 데이터에선 평가 척도에 대한 평가.
  3. 1~2 번을 반복해 검증 데이터에 대한 평균을 구함.

교차 검증 팁
  • 데이터를 나누는 기준은 데이터가 클때는 5:5 , 작을 경우 9:1로 나누는게 바람직하다.
    • 가장 바람직한 방법은 여러 데이터로 쪼개서 여러 경우에대해 실험하는 경우이다.
  • 데이터를 분리할 때는 random_seed 값을 고정.
  • 데이터를 분리 할때 레이블(target)이 있는경우 타겟의 비율에 맞게 나눠주는 것이 좋다.
  • 시계열 데이터의 경우 학습 데이터는 검증 데이터보다 과거로 설정.

데이터에 관한 팁
  • 노말라이즈를 통해 변수값들의 스케일을 조정.
  • 이상치를 제거.
  • 결측치의 경우 제거를 하거나, 여러 기법을 통해 값을 채워넣는다.
    • knn, clustering, 주변 데이터 값들을 이용해서.
  • 범주형 데이터의 경우 데이터 형을 변형해 준다.
    • 남자,여자 -> 0 , 1


+ Recent posts