KNN

    KNN_캐글

    캐글의 튜토리얼 격인 타이타닉 데이터를 의사결정 트리로 분류해보자 sklearn을 이용하여 KNN알고리즘으로 구현한다. 데이터 자체를 이해하고 어떤것이 중요한 데이터인지 분류하는 것보다는 sklearn을 이용하여 KNN알고리즘 자체를 구현해 보는 것이 목적이기 때문에 데이터 전처리에는 큰 비중을 두지 않고 넘어간다. www.kaggle.com/c/titanic Titanic: Machine Learning from Disaster Start here! Predict survival on the Titanic and get familiar with ML basics www.kaggle.com 실습 1. 사용할 모듈을을 불러온다 데이터 처리를 위한 pandas와 numpy KNN알고리즘을 구현하기 위한 sk..

    K-NN 최근접 이웃 (K-Nearest Neighbor) 알고리즘

    분류와 군집화 분류(Classification) 소속집단의 정보를 이미 알고 있는 상태에서, 비슷한 집단으로 묶는 방법 -> 지도 학습 위 그림에는 사전 정보인 색깔이 존재한다. 이런 데이터의 분포에서 비슷한 집단으로 묶을 때는 분류를 사용한다. 군집화(Clustering) 소속집단의 정보가 없고, 모르는 상태에서, 비슷한 집단으로 묶는 방법 -> 비지도 학습 위 그림에서는 각 데이터들의 사전 정보가 주어지지 않는데 이럴 때 군집화를 사용한다. K-Nearest Neighbor 알고리즘 정답이 없는 예시를 "분류" 하기 위한 알고리즘 가장 고전적이고 직관적인 특징이 있다. 새로운 데이터를 입력받았을 때, 가장 가까이에 존재하는 데이터가 무엇이냐를 중심으로 새로운 데이터를 분류한다. 물음표에는 별이 들어가..