2. 빅데이터 탐색#
데이터 전처리 : 정제 \(\to\) 결측값 처리 \(\to\) 이상치 \(\to\) 변수처리
이상치 Outlier#
일반적인 다른 값과 멀리 떨어져 있는 값 분포를 왜곡할 수 있으나 실제 오류인지 통계적으로 검증할 수 없으므로 제거여부는 해당 분야의 전문가와 상의하여 판별해야함
원인 : 측정오류, 처리오류, 표본오류, 고의, 실험오류, 자연오류, 입력오류 영향 up : 평균, 분산, 표준편차, range, ensemble, k-means 영향 down : 중앙값, knn, dbscan \(\to\) kmeans제외한 비지도 , abnormal detection, medical, scam, hacking detection에 사용된다.
이상치 검출 방법
이름 |
katex |
---|---|
ESD |
|
사분위수 |
|
기하평균 |
|
Z-Score |
|
카이제곱 검정 |
|
something#
과적합이 과할 경우에는 lasso, ridge penalty term을 이용 train 데이터를 늘리거나 모형의 모수의 수를 줄이는 방법을 사용한다.
부트스트랩은 중복을 허용해서 표본추출을 허용하는 방법을 말한다.