기초 수학
조합
순서를 상관하지 않고 뽑는 것
순열
순서를 고려하고 뽑는 것
사건 A가 일어날 확률
P(A) = n(A) / n(S)
(A 경우) / (전체 경우)
P(A) = A 사건이 일어날 확률
조건부 확률
사건 A가 일어났다고 가정했을때, 사건 B가 일어날 확률
P(B | A) = P(A∩B) / P(A) (단, P(A) > 0)
확률의 곱셈 정리
P(A∩B) = P(A)P(B|A) = P(B)P(A|B) (단, P(A) > 0 && P(B) > 0)
P(B | A) = P(A∩B) / P(A)
P(A | B) = P(A∩B) / P(B)
P(A∩B) = P(A)∗P(A∩B) / P(A) = P(B)∗P(A∩B) / P(B)
독립과 종속
독립 : 사건 A가 일어나거나 일어나지 않는 것이 사건 B가 일어날 확률에 영향을 주지 않을 때
P(A∩B) = P(A)P(B)= P(B)P(A) -> 독립인 사건의 곱셈정리
종속 : 사건 A가 일어나거나 일어나지 않는 것이 사건 B가 일어날 확률에 영향을 줄 때
베이즈 정리
두 확률 변수의 사전 확률과 사후확률 사이의 관계를 나타내는 정리
베이즈 정리는 사전확률로부터 사후확률을 구할 수 있다.
# 사후확률 : 시간적으로 나중에 일어나는 사건을 그보다 앞서 일어나는 사건의 전제로 사용하는 조건부 확률
사건 B가 먼저 일어난 후 사건 A가 일어날 때
P(B|A) : 사후 확률, 후에 일어나는 사건 A를 전제로 하는 조건부 확률
P(B) : 사전 확률, 사건 A가 일어나기 전 사건 B가 일어날 확률
P(A|B) : 가능도, 이미 알고 있는 사건이 발생했다는 조건 하에 다른 사건이 발생할 확률
P(A) : 관찰값, 사건 B가 일어난 후에 사건 A가 일어날 확률
-> 좌변, 우변 모두 조건부 확률 사용, 조건부 확률의 전제 조건이 바뀜
-> 좌변과 우변의 전제 및 조건부 확률이 다른 이유 -> P(B|A)가 사후 확률이기 때문이다
사건 B가 사건 A가 일어나는데 얼마나 영향을 주는지 표현할 수 있다.
40/100 = 2/5 = P(B|A) 60/100 = 3/5 = P(C|A)
식을 정리하면 P(A|B)∗P(B)/(P(A|B)∗P(B) + P(A|C)∗P(C)) = P(A|B) ∗ P(B)/P(A)
베이즈 정리 활용
1) 상자 A를 선택할 확률 * 그 공이 빨간색일 확률
1/2 * 2/3 = 1/3
2) 상자 B를 선택할 확률 * 그 공이 빨간색일 확률
1/2 * /3 = 1/6
빨간 공이 상자 A에서 나올 확률
1) / 1) + 2) = (1/3)/(1/3)+(1/6) = 2/3
나이브 베이즈
머신러닝의 분류 알고리즘
모든 특성값이 독립임을 가정(서로 관계가 없다)
머신러닝 알고리즘 중 가장 단순하고 적은 연산 사용
조건부 확률 모델, 가능도의 연쇄적인 곱으로 계산
적절한 전처리를 하면 SVM과 경쟁할 만큼 우수한 성능 보유
종류
GaussianNB: 가우시안 정규 분포 나이브 베이즈
- 연속적인 값을 지닌 데이터 처리 위해 가우스 분포 활용, 고차원인 데이터 세트에 사용
BernoulliNB: 베르누이 분포 나이브 베이즈
- 이진 데이터, 텍스트와 같은 희소한 데이터 세트에 사용
MultinomialNB: 다항 분포 나이브 베이즈
- 특성이 많은 카운트 데이터, 텍스트와 같은 희소한 데이터 세트에 사용
장점
지도 학습에서 매우 효쥴적으로 훈련 가능
필요한 파라미터 추정을 위한 train_data의 양이 적음
복잡하고 많은 실제 상황에도 잘 작동
단점
모든 속성이 동등하게 중요하고 독립적이어야 함
수치 특징이 많은 데이터셋에 이상적이지 않음
추정된 확률이 예측된 클래스보다 덜 신뢰적임
'Emotion > 인공지능 기초' 카테고리의 다른 글
SVM(Support Vector Machine) 알고리즘 (0) | 2020.09.24 |
---|---|
선형회귀(linear regression) (0) | 2020.09.24 |
랜덤 포레스트 (0) | 2020.09.16 |
의사결정 트리 CART (0) | 2020.09.16 |
의사결정 트리 캐글 (0) | 2020.09.15 |