교차 검증(Cross Validation)
- 데이터는 5:5 ~ 9:1 비율로 훈련 / 검증 데이터로 분리.
- 훈련 데이터는 모델의 학습 / 검증 데이터에선 평가 척도에 대한 평가.
- 1~2 번을 반복해 검증 데이터에 대한 평균을 구함.
교차 검증 팁
- 데이터를 나누는 기준은 데이터가 클때는 5:5 , 작을 경우 9:1로 나누는게 바람직하다.
- 가장 바람직한 방법은 여러 데이터로 쪼개서 여러 경우에대해 실험하는 경우이다.
- 데이터를 분리할 때는 random_seed 값을 고정.
- 데이터를 분리 할때 레이블(target)이 있는경우 타겟의 비율에 맞게 나눠주는 것이 좋다.
- 시계열 데이터의 경우 학습 데이터는 검증 데이터보다 과거로 설정.
데이터에 관한 팁
- 노말라이즈를 통해 변수값들의 스케일을 조정.
- 이상치를 제거.
- 결측치의 경우 제거를 하거나, 여러 기법을 통해 값을 채워넣는다.
- knn, clustering, 주변 데이터 값들을 이용해서.
- 범주형 데이터의 경우 데이터 형을 변형해 준다.
- 남자,여자 -> 0 , 1
'Study > Data Science' 카테고리의 다른 글
PCA(Principal component analysis) 간단 정리 (0) | 2019.02.21 |
---|---|
Python 감성 분석 및 감성사전 구축. (5) | 2018.12.27 |
PCA & PCR Python numpy code (0) | 2018.11.25 |
NLTK를 이용한 Frequency Distributions, Conditional Frequency Distributions, Stopwords (0) | 2018.11.08 |
python ntlk를 이용한 sent, word tokenize (0) | 2018.11.06 |