전체 글

전체 글

    의사결정 트리 CART

    의사결정트리 ID3 글을 먼저 읽고오는것을 추천한다. ursobad.tistory.com/31 의사결정 트리 ID3 의사결정트리 의사결정 규칙을 나무구조로 나타내에 전체 데이터를 소집단으로 분류하거나 예측하는 분석기법 전체 데이터에서 마치 스무고개하듯이 질문하며 분류해나간다. 그 모양이 마치� ursobad.tistory.com 의사결정트리 CART알고리즘의 불순도는 지니계수를 사용한다. 지니계수 불순도를 측정하는 지표, 정보의 기대값 지니계수가 높을수록 불순도가 높고, 지니계수가 낮을수록 불순도가 낮다. S : 이미 사건의 모음 c : 사건의 개발생한수 특징 CART 알고리즘은 ID3 알고리즘과 달리 이진 분할 형태를 따른다. 숫자 및 범주 형 변수를 모두 처리 할 수 ​​있으며 특이치를 쉽게 처리 가..

    의사결정 트리 캐글

    캐글의 튜토리얼 격인 타이타닉 데이터를 의사결정트리로 분류해보자 sklearn을 이용하여 CART알고리즘으로 구현한다. 데이터 자체를 이해하고 어떤것이 중요한 데이터인지 분류하는 것보다는 sklearn을 이용하여 의사결정 트리의 CART 알고리즘 자체를 구현해 보는것이 목적이기 때문에 데이터 전처리에는 큰 비중을 두지 않고 넘어간다. www.kaggle.com/c/titanic Titanic: Machine Learning from Disaster Start here! Predict survival on the Titanic and get familiar with ML basics www.kaggle.com 위 링크에서 데이터셋을 다운받는다. 데이터 뜯어보기 import pandas as pd #트레이닝..

    의사결정 트리 ID3

    의사결정트리 의사결정 규칙을 나무구조로 나타내에 전체 데이터를 소집단으로 분류하거나 예측하는 분석기법 전체 데이터에서 마치 스무고개하듯이 질문하며 분류해나간다. 그 모양이 마치 나무와 같아서 의사결정 나무라 부른다. 불순도 말 그대로 불순도. 순도의 반대말 1번과 3번 항아리를 파란 공, 빨간 공으로만 채워져 있으며, 2번 항아리는 빨간 공과 파란 공이 정확히 반반 섞여 있다. 1번과 3번 항아리는 순도 100%라 할 수 있으며, 2번 항아리는 불순도가 높은 상태라 할 수 있다. 불순도를 수치로 나타내는 지표는 엔트로피와 지니계수가 있는데 ID3알고리즘은 엔트로피를 이용한다. 엔트로피 불순도를 측정하는 지표, 정보의 기대값 엔트로피가 높을수록 불순도가 높고, 엔트로피가 낮을수록 불순도가 낮다. k는 대상..

    KNN_캐글

    캐글의 튜토리얼 격인 타이타닉 데이터를 의사결정 트리로 분류해보자 sklearn을 이용하여 KNN알고리즘으로 구현한다. 데이터 자체를 이해하고 어떤것이 중요한 데이터인지 분류하는 것보다는 sklearn을 이용하여 KNN알고리즘 자체를 구현해 보는 것이 목적이기 때문에 데이터 전처리에는 큰 비중을 두지 않고 넘어간다. www.kaggle.com/c/titanic Titanic: Machine Learning from Disaster Start here! Predict survival on the Titanic and get familiar with ML basics www.kaggle.com 실습 1. 사용할 모듈을을 불러온다 데이터 처리를 위한 pandas와 numpy KNN알고리즘을 구현하기 위한 sk..

    K-NN 최근접 이웃 (K-Nearest Neighbor) 알고리즘

    분류와 군집화 분류(Classification) 소속집단의 정보를 이미 알고 있는 상태에서, 비슷한 집단으로 묶는 방법 -> 지도 학습 위 그림에는 사전 정보인 색깔이 존재한다. 이런 데이터의 분포에서 비슷한 집단으로 묶을 때는 분류를 사용한다. 군집화(Clustering) 소속집단의 정보가 없고, 모르는 상태에서, 비슷한 집단으로 묶는 방법 -> 비지도 학습 위 그림에서는 각 데이터들의 사전 정보가 주어지지 않는데 이럴 때 군집화를 사용한다. K-Nearest Neighbor 알고리즘 정답이 없는 예시를 "분류" 하기 위한 알고리즘 가장 고전적이고 직관적인 특징이 있다. 새로운 데이터를 입력받았을 때, 가장 가까이에 존재하는 데이터가 무엇이냐를 중심으로 새로운 데이터를 분류한다. 물음표에는 별이 들어가..

    백준 수 정렬하기

    www.acmicpc.net/problem/2750 2750번: 수 정렬하기 첫째 줄에 수의 개수 N(1 ≤ N ≤ 1,000)이 주어진다. 둘째 줄부터 N개의 줄에는 숫자가 주어진다. 이 수는 절댓값이 1,000보다 작거나 같은 정수이다. 수는 중복되지 않는다. www.acmicpc.net 문제 N개의 수가 주어졌을 때, 이를 오름차순으로 정렬하는 프로그램을 작성하시오. 입력 첫째 줄에 수의 개수 N(1 ≤ N ≤ 1,000)이 주어진다. 둘째 줄부터 N개의 줄에는 숫자가 주어진다. 이 수는 절댓값이 1,000보다 작거나 같은 정수이다. 수는 중복되지 않는다. 출력 첫째 줄부터 N개의 줄에 오름차순으로 정렬한 결과를 한 줄에 하나씩 출력한다. Python풀이 a = int(input()) lis = [..

    백준 알파벳 찾기

    www.acmicpc.net/problem/10809 10809번: 알파벳 찾기 각각의 알파벳에 대해서, a가 처음 등장하는 위치, b가 처음 등장하는 위치, ... z가 처음 등장하는 위치를 공백으로 구분해서 출력한다. 만약, 어떤 알파벳이 단어에 포함되어 있지 않다면 -1을 출 www.acmicpc.net 문제 알파벳 소문자로만 이루어진 단어 S가 주어진다. 각각의 알파벳에 대해서, 단어에 포함되어 있는 경우에는 처음 등장하는 위치를, 포함되어 있지 않은 경우에는 -1을 출력하는 프로그램을 작성하시오. 입력 첫째 줄에 단어 S가 주어진다. 단어의 길이는 100을 넘지 않으며, 알파벳 소문자로만 이루어져 있다. 출력 각각의 알파벳에 대해서, a가 처음 등장하는 위치, b가 처음 등장하는 위치, ... ..

    모듈과 패키지

    모듈과 패키지 모듈이란? - 각종 변수, 함수, 클래스를 담고있는 파일 - 특정기능을 .py 파일 단위로 작성한것 패키지란? - 여러 모듈을 묶은것 모듈 가져오기 구조 import 모듈 모듈.변수 모듈.함수() 모듈.클래스() ex) import math print(math.pi) #변수 print(math.sqrt(4)) #함수 --출력-- 3.141592653589793 2.0 pi는 math모듈에 저장되어있는 변수를 불러온다 sqrt는 루트를 계산해주는 함수이다. import as로 모듈이름 지정 구조 import 모듈 as 이름 ex) import math as m print(m.pi) #변수 print(m.sqrt(4)) #함수 --출력-- 3.141592653589793 2.0 from imp..