클러스터링, 군집화?
지금까지 다루었던 데이터들은 레이블을 가지고 있기 때문에 데이터와 레이블을 기반으로 예측이나 분류를 수행하는 지도학습을 다뤘습니다. 그러나 데이터들이 항상 레이블을 가지고 있을 수는 없고 레이블이 없는 데이터 안에서 패턴과 구조를 발견하는 비지도 학습이 있습니다. 그 중 가장 대표적인 비지도 학습 기술이 Clustering(군집화)입니다. 클러스터링을 응용하여 다음과 같은 것들에 적용할 수 있습니다.
- 유사한 인구통계나 구매 패턴을 가진 그룹으로 고객 세분화
- 알려진 클러스터를 벗어나는 사용 패턴을 식별하여 무단 네트워크 침입 탐지
- 비슷한 값을 가진 특징을 더 적은 수의 동종 범주로 그룹화해 데이터셋 단순화
K-Means Clustering
K-Means 알고리즘은 가장 유명한 클러스터링 알고리즘입니다. K는 클러스터의 개수를 의미합니다. 중심점은 각 클러스터에 속한 개체의 평균으로 잡을 수 있습니다. 가장 가까운 중심으로부터 각 개체를 그룹화합니다.
K-Means 절차
- 매개 변수(parameter) k 결정 (k > 0)
- 중심점을 시작하기 위해 k개의 점을 무작위로 선택
- 모든 점을 가장 가까운 중심에 할당하여 k 클러스터 형성
- 각 클러스터의 중심을 다시 계산 (각 클러스터의 평균 계산)
- 중심이 변하지 않을 때까지 3번으로 돌아가 반복
DBSCAN
DBSCAN은 연결된 점을 기반으로 하는 클러스터링 기술입니다. 서로 이웃한 데이터의 밀도가 일부 임계값을 초과하는 한 주어진 클러스터를 계속 확장합니다.
DBSCAN의 매개 변수는 'Epsilon (𝜺)'으로 이웃의 최대 반지름을 의미하고 'minPts'는 해당 지점의 Eps-이웃에 있는 최소 점의 수를 말합니다.
Core 개체는 𝜺-이웃의 최소 점의 개수를 충족하는 개체를 의미합니다. 위의 그림에서 보면 q개체는 최소 점의 수 5개를 충족하고 있기 때문에 Core 개체라고 말할 수 있습니다.
'AI' 카테고리의 다른 글
Clustering 실습 2 (0) | 2021.08.05 |
---|---|
Clustering 실습 1 (0) | 2021.08.03 |
랜덤 포레스트 vs 엑스트라 트리 (0) | 2021.08.02 |
랜덤 포레스트 (Random Forest) (0) | 2021.08.02 |
AutoML(Grid Search, Random Search) (1) | 2021.07.29 |