Skip to content

Latest commit

 

History

History
24 lines (12 loc) · 1.21 KB

File metadata and controls

24 lines (12 loc) · 1.21 KB

05. 데이터 준비

image

데이터 분석중에서 제일 시간이 많이 소요되는 과정이 무엇일까요?

실제로 데이터 사이언티스트들이 80%~90% 가까이 시간을 들이는 과정이 바로 데이터 전처리입니다.

데이터 전처리는 분석 결과에 직접적인 영향을 미치기 때문에 데이터 분석에 있어서 가장 중요한 과정이라 해도 과언이 아닙니다. 저희가 실제로 분석을 하기 위해 데이터셋을 가져오면 더러운(dummy) 데이터들이 대부분이죠. 그래서 저희는 유의미한 결과를 낳도록 이 지저분한 데이터를 분석 전에 정제하는(clean up) 처리과정, 즉 **전처리과정(preprocessing)**을 거치게됩니다. 다들 회귀분석, 로지스틱 회귀 등 Fancy한 분석을 생각하고 오셨겠지만 곧 전처리만 죽어라 하고 계시는 여러분들을 보게 되실겁니다. ㅎㅎ

 

Contents

  1. 숫자특성조정 (Data Transformation)

  2. 정성적 특성 인코딩 (Data Discretization)

  3. 수치특성변환 (Feature Engineering)

  4. 누락데이터 (Missing value treatment)

  5. 이상치 (Outlier treatment)