본문 바로가기
반영훈/Python

파이썬으로 하는 클러스터링

by Banda 2020. 8. 2.

판다스의 대표 데이터셋인 붓꽃데이터셋으로 K-Means를 이용하여 클러스터링을 해 보겠습니다.

우선 사용할 라이브러리와 데이터들을 불러와주고

kmeans를 어떻게 수행할 것인지 세팅해줍니다.

데이터프레임에서 타겟와 클러스터를 정해주고 groupby와 .count를 이용하여 정리해주고

fit_transform을 이용하여 평균과 표준편차를 계산하여 정규화 해 줍니다.

 

각 클러스터별로 별도의 인덱스로 추출하고 해당index로 각 클러스터의 pca_x, pca_y값을 추출하여 세가지 형태의 marker로 표시해 줍니다.

 

 

추가로 알고리즘 테스트를 위한 데이터를 생섭합니다

산포도를 marker별로 생성하여 시각화 해 줍니다.

클러스터링을 해준 후 중심위치 좌표 시각화를 위해 센터값을 구한 뒤 군집된 Label 유형별로 나눠서 marker별로 산포도를 그려주고 이전에 구했던 중심위치좌표를 시각화 해 줍니다.

 

해당 포스트는 위키북스의 파이썬 머시러닝 완벽가이드를 참고하였습니다.

댓글