의사결정트리
랜덤 포레스트
ursobad.tistory.com/31 ursobad.tistory.com/34 위 글들을 먼저 읽어야 이해할 수 있는 내용이다. 랜덤 포레스트(random forest) 분류, 회귀 분석 등에 사용되는 앙상블 학습 방법의 일종 분류 - 분류는 미리 정의된, 가능성이 있는 여러 클래스 레이블 중 하나를 예측하는 것 회귀 - 연속적인 숫자(실수)를 예측하는 것 앙상블이란? 여러 Base 모델들의 예측을 다수결 법칙 또는 평균을 이용해 통합하여 예측의 정확성을 향상시키는 방법 랜덤 포레스트는 의사결정 트리(Decision Tree)를 Base 모델로 사용한다. 결정 트리의 단점인 훈련 데이터에 오버 피팅이 된다는 점을 여러 개의 결정 트리를 통해 랜덤 포레스트를 만들어 해결한다 핵심 아이디어 1. 여러개의..
의사결정 트리 ID3
의사결정트리 의사결정 규칙을 나무구조로 나타내에 전체 데이터를 소집단으로 분류하거나 예측하는 분석기법 전체 데이터에서 마치 스무고개하듯이 질문하며 분류해나간다. 그 모양이 마치 나무와 같아서 의사결정 나무라 부른다. 불순도 말 그대로 불순도. 순도의 반대말 1번과 3번 항아리를 파란 공, 빨간 공으로만 채워져 있으며, 2번 항아리는 빨간 공과 파란 공이 정확히 반반 섞여 있다. 1번과 3번 항아리는 순도 100%라 할 수 있으며, 2번 항아리는 불순도가 높은 상태라 할 수 있다. 불순도를 수치로 나타내는 지표는 엔트로피와 지니계수가 있는데 ID3알고리즘은 엔트로피를 이용한다. 엔트로피 불순도를 측정하는 지표, 정보의 기대값 엔트로피가 높을수록 불순도가 높고, 엔트로피가 낮을수록 불순도가 낮다. k는 대상..