2. 빅데이터 탐색

2. 빅데이터 탐색#

데이터 전처리 : 정제 \(\to\) 결측값 처리 \(\to\) 이상치 \(\to\) 변수처리

이상치 Outlier#

일반적인 다른 값과 멀리 떨어져 있는 값 분포를 왜곡할 수 있으나 실제 오류인지 통계적으로 검증할 수 없으므로 제거여부는 해당 분야의 전문가와 상의하여 판별해야함

원인 : 측정오류, 처리오류, 표본오류, 고의, 실험오류, 자연오류, 입력오류 영향 up : 평균, 분산, 표준편차, range, ensemble, k-means 영향 down : 중앙값, knn, dbscan \(\to\) kmeans제외한 비지도 , abnormal detection, medical, scam, hacking detection에 사용된다.

이상치 검출 방법

이름

katex

ESD

사분위수

기하평균

Z-Score

카이제곱 검정

something#

과적합이 과할 경우에는 lasso, ridge penalty term을 이용 train 데이터를 늘리거나 모형의 모수의 수를 줄이는 방법을 사용한다.

부트스트랩은 중복을 허용해서 표본추출을 허용하는 방법을 말한다.