데이터 전처리 ◈ 데이터 전처리는 무엇일까? 데이터 전처리는 데이터에 이상값을 찾아 분석하기 좋게 데이터를 고치는 모든 작업을 말합니다. 데이터에 이상값이 있을 때 데이터 분석 및 통계 모델링 결과에 영향을 주어 결과값이 크게 변경될 수 있습니다. 데이터 세트에서 이상값의 불리한 작용에는 다음과 같습니다. 오차 분산을 증가시키고 통계 검정의 검정력을 감소시킨다. 이상값이 무작위로 분포되지 않으면 정규성이 감소 할 수 있다. 실질적인 관심이 있는 추정치를 편향시키거나 영향을 줄 수 있다. ◈ 데이터 전처리 방법 1. 데이터 통합(Integration) 다양한 로그 파일 및 데이터베이스의 통합 일관성 있는 데이터 형태로 변환 2. 데이터 변환(Transformation) 정규화(nomalization) # ..