훈련 세트(training set) 모델 훈련에 쓰이는 데이터 세트. 테스트 세트(test set) 모델의 실제 정확도를 판별하기 위해 쓰이는 데이터 세트. 전 글에서 훈련 세트와 테스트 세트를 나누지 않고 모델을 만들어 훈련을 했습니다. 결과는 당연히 100%로 나왔습니다. 머신러닝 알고리즘의 성능을 제대로 평가하려면 훈련 데이터와 평가에 사용할 데이 터가 각각 달라야 합니다. 그러기 위해 준비된 데이터 중에 일부를 떼어 훈련 세트와 테스트 세트를 나누어 줍니다. 훈련 세트와 테스트 세트를 나누어 줄 때 데이터가 한 쪽으로 편향되는 것을 방지하기 위해 데이터를 섞어주어야 합니다. scikit-learn 에서 train_test_split()이라는 함수를 사용해 비율에 맞게 섞어 훈련 세트와 테스트 세트..