데이터 분석중에서 제일 시간이 많이 소요되는 과정이 무엇일까요?
실제로 데이터 사이언티스트들이 80%~90% 가까이 시간을 들이는 과정이 바로 데이터 전처리입니다.
데이터 전처리는 분석 결과에 직접적인 영향을 미치기 때문에 데이터 분석에 있어서 가장 중요한 과정이라 해도 과언이 아닙니다. 저희가 실제로 분석을 하기 위해 데이터셋을 가져오면 더러운(dummy) 데이터들이 대부분이죠. 그래서 저희는 유의미한 결과를 낳도록 이 지저분한 데이터를 분석 전에 정제하는(clean up) 처리과정, 즉 **전처리과정(preprocessing)**을 거치게됩니다. 다들 회귀분석, 로지스틱 회귀 등 Fancy한 분석을 생각하고 오셨겠지만 곧 전처리만 죽어라 하고 계시는 여러분들을 보게 되실겁니다. ㅎㅎ
