파이썬

    로지스틱 회귀(Logistic Regression)

    ursobad.tistory.com/36 선형회귀(linear regression) 선형회귀(linear regression) 회귀란? 관찰된 연속형 변수들에 대해 두 변수 사이의 모형을 구한뒤 적합도를 측정해 내는 분석 방법 선형회귀 가장 기본적이고 널리 사용되는 기계 학습 알고리즘 중 ursobad.tistory.com 로지스틱 회귀(Logistic Regression) 종속 변수와 독립 변수 간의 관계를 구체적으로 나타낸다. 선형 회귀처럼 연속된 값을 예측하는 것이 아니라 종속변수가 범주형 데이터일 때 사용한다. 회귀를 사용하여 범주에 속할 확률을 예측한다. - 가능성이 더 높은 범주로 분류하는 알고리즘이다. # 독립 변수 : 독립 변수는 입력값이나 원인 # 종속 변수 : 종속 변수는 결과물이나 효..

    선형회귀(linear regression)

    선형회귀(linear regression) 회귀란? 관찰된 연속형 변수들에 대해 두 변수 사이의 모형을 구한뒤 적합도를 측정해 내는 분석 방법 선형회귀 가장 기본적이고 널리 사용되는 기계 학습 알고리즘 중 하나 독립 변수 x를 사용해 종속 변수 y의 움직임을 예측하고 설명한다 간단하게 일차함수의 개념 y = ax + b의 직선을 임의로 그려놓고, 그 직선을 바탕으로 예측하는 것 #독립 변수 : 독립 변수는 입력값이나 원인 #종속 변수 : 종속 변수는 결과물이나 효과 단순 선형회귀(simple linear regression) : 하나의 x 값만으로도 y 값을 설명할 수 있는 것 다중 선형회귀(multiple linear regression) : x 값이 여러 개 필요로 할 때 사용 Error(에러) 사용..

    백준 상수

    www.acmicpc.net/problem/2908 2908번: 상수 상근이의 동생 상수는 수학을 정말 못한다. 상수는 숫자를 읽는데 문제가 있다. 이렇게 수학을 못하는 상수를 위해서 상근이는 수의 크기를 비교하는 문제를 내주었다. 상근이는 세 자리 수 두 � www.acmicpc.net 문제 상근이의 동생 상수는 수학을 정말 못한다. 상수는 숫자를 읽는데 문제가 있다. 이렇게 수학을 못하는 상수를 위해서 상근이는 수의 크기를 비교하는 문제를 내주었다. 상근이는 세 자리 수 두 개를 칠판에 써주었다. 그 다음에 크기가 큰 수를 말해보라고 했다. 상수는 수를 다른 사람과 다르게 거꾸로 읽는다. 예를 들어, 734와 893을 칠판에 적었다면, 상수는 이 수를 437과 398로 읽는다. 따라서, 상수는 두 수..

    랜덤 포레스트

    ursobad.tistory.com/31 ursobad.tistory.com/34 위 글들을 먼저 읽어야 이해할 수 있는 내용이다. 랜덤 포레스트(random forest) 분류, 회귀 분석 등에 사용되는 앙상블 학습 방법의 일종 분류 - 분류는 미리 정의된, 가능성이 있는 여러 클래스 레이블 중 하나를 예측하는 것 회귀 - 연속적인 숫자(실수)를 예측하는 것 앙상블이란? 여러 Base 모델들의 예측을 다수결 법칙 또는 평균을 이용해 통합하여 예측의 정확성을 향상시키는 방법 랜덤 포레스트는 의사결정 트리(Decision Tree)를 Base 모델로 사용한다. 결정 트리의 단점인 훈련 데이터에 오버 피팅이 된다는 점을 여러 개의 결정 트리를 통해 랜덤 포레스트를 만들어 해결한다 핵심 아이디어 1. 여러개의..

    의사결정 트리 ID3

    의사결정트리 의사결정 규칙을 나무구조로 나타내에 전체 데이터를 소집단으로 분류하거나 예측하는 분석기법 전체 데이터에서 마치 스무고개하듯이 질문하며 분류해나간다. 그 모양이 마치 나무와 같아서 의사결정 나무라 부른다. 불순도 말 그대로 불순도. 순도의 반대말 1번과 3번 항아리를 파란 공, 빨간 공으로만 채워져 있으며, 2번 항아리는 빨간 공과 파란 공이 정확히 반반 섞여 있다. 1번과 3번 항아리는 순도 100%라 할 수 있으며, 2번 항아리는 불순도가 높은 상태라 할 수 있다. 불순도를 수치로 나타내는 지표는 엔트로피와 지니계수가 있는데 ID3알고리즘은 엔트로피를 이용한다. 엔트로피 불순도를 측정하는 지표, 정보의 기대값 엔트로피가 높을수록 불순도가 높고, 엔트로피가 낮을수록 불순도가 낮다. k는 대상..

    K-NN 최근접 이웃 (K-Nearest Neighbor) 알고리즘

    분류와 군집화 분류(Classification) 소속집단의 정보를 이미 알고 있는 상태에서, 비슷한 집단으로 묶는 방법 -> 지도 학습 위 그림에는 사전 정보인 색깔이 존재한다. 이런 데이터의 분포에서 비슷한 집단으로 묶을 때는 분류를 사용한다. 군집화(Clustering) 소속집단의 정보가 없고, 모르는 상태에서, 비슷한 집단으로 묶는 방법 -> 비지도 학습 위 그림에서는 각 데이터들의 사전 정보가 주어지지 않는데 이럴 때 군집화를 사용한다. K-Nearest Neighbor 알고리즘 정답이 없는 예시를 "분류" 하기 위한 알고리즘 가장 고전적이고 직관적인 특징이 있다. 새로운 데이터를 입력받았을 때, 가장 가까이에 존재하는 데이터가 무엇이냐를 중심으로 새로운 데이터를 분류한다. 물음표에는 별이 들어가..

    백준 수 정렬하기

    www.acmicpc.net/problem/2750 2750번: 수 정렬하기 첫째 줄에 수의 개수 N(1 ≤ N ≤ 1,000)이 주어진다. 둘째 줄부터 N개의 줄에는 숫자가 주어진다. 이 수는 절댓값이 1,000보다 작거나 같은 정수이다. 수는 중복되지 않는다. www.acmicpc.net 문제 N개의 수가 주어졌을 때, 이를 오름차순으로 정렬하는 프로그램을 작성하시오. 입력 첫째 줄에 수의 개수 N(1 ≤ N ≤ 1,000)이 주어진다. 둘째 줄부터 N개의 줄에는 숫자가 주어진다. 이 수는 절댓값이 1,000보다 작거나 같은 정수이다. 수는 중복되지 않는다. 출력 첫째 줄부터 N개의 줄에 오름차순으로 정렬한 결과를 한 줄에 하나씩 출력한다. Python풀이 a = int(input()) lis = [..

    백준 알파벳 찾기

    www.acmicpc.net/problem/10809 10809번: 알파벳 찾기 각각의 알파벳에 대해서, a가 처음 등장하는 위치, b가 처음 등장하는 위치, ... z가 처음 등장하는 위치를 공백으로 구분해서 출력한다. 만약, 어떤 알파벳이 단어에 포함되어 있지 않다면 -1을 출 www.acmicpc.net 문제 알파벳 소문자로만 이루어진 단어 S가 주어진다. 각각의 알파벳에 대해서, 단어에 포함되어 있는 경우에는 처음 등장하는 위치를, 포함되어 있지 않은 경우에는 -1을 출력하는 프로그램을 작성하시오. 입력 첫째 줄에 단어 S가 주어진다. 단어의 길이는 100을 넘지 않으며, 알파벳 소문자로만 이루어져 있다. 출력 각각의 알파벳에 대해서, a가 처음 등장하는 위치, b가 처음 등장하는 위치, ... ..