Machine Learning Algorithm - 기초 Basic
Algorithms 구성
- Algorithms (1) - Machine learning basic 기초
- Algorithms (2) - Machine learning linear regression (1)
- Algorithms (2) - Machine learning linear regression (2)
- Algorithms (2) - Machine learning linear regression (3)
- Algorithms (2) - Machine learning linear regression (4)
- Algorithms (3) - Machine learning logistic regression (1)
모델링이란?
-
주어진 독립변수, 예측변수, input 변수 (predictor variables) x
-
주어진 종속변수 반응변수 output 변수 (response variables) y 를 가지고
-
알맞은 함수식 (hypothesis function or prediction rule) function f(x) 를 찾는것
Training data and Testing data
-
Training data (학습 데이터)는 모델 f(x)구축시 사용되는 데이터
-
Testing data (검증 데이터)는 구축된 모델을 검증하는데 사용되는 데이터
AI란?
Artifical intelligence는 어느 기계에 함수가 들어가는 것 (세탁기에 함수가 들어가면 인공지능 세탁기가 된다!)
모델링의 종류
-
linear regression (선형 회귀)
-
logistic regression (로지스틱 회귀)
-
decision tree (의사결정나무)
-
random forest (랜덤 포레스트)
-
network (네트워크 모델 #신경망모델)
데이터
y의 종류
- 연송형 (quantitative) : 숫자로 표현 (가격, 길이, 압력, 두께)
- 범주형 (categorical): 숫자로 표현 안되는 데이터 (제품 불량 여부, 보험 사기 여부)
regression (수치 예측)
- 큰 의미의 수치 예측
classification (범주 예측, 분류)
- 0 = 불량, 1 = 정상
regression example
모델을 만들고 x값을 넣었을때 numerical y값을 구하는 모델
classification example
두 종류를 나눠주는 모델을 만들고 데이터가 주어졌을때 그 것이 어느 종류인지 알려주는 모델
features (특성들)을 바탕으로 불량품인지 아닌지 또는 정상인지 비정상인지 ‘종류’를 예측 하는 모델
-
x 와 y 의 관계를 찾자
-
y를 설명하는 x 변수는 보통 여러개 이다
-
여러 종류의 x를 가지고 y와의 관계를 찾는 것
-
Y = f(X1, X2, … Xp)
Parameters (매개 변수)
coefficient = parameters (include intercept)
Y = w1 X1 + w2 X2 + ε
-
여기서는 w1 과 w2가 parameter, ε은 오차 (error)
-
모델의 parameter를 찾는 것이 궁극적인 목표
Loss function = Y - f(x) (손실함수 = 오차를 구해주는 식)
Best model은 Loss function이 적은 것 Y - f(x) = 0, ε = 0
Cost function = Sum ( Yi - (w1 X1i + w2 X2i ) ) ^2
개별적인 차이를 정의하는 식 // loss function과 비슷한 맥락
Cost function을 최소로하는 parameters (w1, w2)를 찾자
^w1, ^w2 (hat)
Model’s parameter를 찾는 것이 핵심
- how? : throughout given data
- for what? : to make my prediction to be same as my actual data as much as possible