/ ALGORITHMS

Machine Learning Algorithm - 기초 Basic

Algorithms 구성

모델링이란?

  • 주어진 독립변수, 예측변수, input 변수 (predictor variables) x

  • 주어진 종속변수 반응변수 output 변수 (response variables) y 를 가지고

  • 알맞은 함수식 (hypothesis function or prediction rule) function f(x) 를 찾는것

Training data and Testing data

  • Training data (학습 데이터)는 모델 f(x)구축시 사용되는 데이터

  • Testing data (검증 데이터)는 구축된 모델을 검증하는데 사용되는 데이터

AI란?

Artifical intelligence는 어느 기계에 함수가 들어가는 것 (세탁기에 함수가 들어가면 인공지능 세탁기가 된다!)

모델링의 종류

  • linear regression (선형 회귀)

  • logistic regression (로지스틱 회귀)

  • decision tree (의사결정나무)

  • random forest (랜덤 포레스트)

  • network (네트워크 모델 #신경망모델)

데이터

y의 종류

  • 연송형 (quantitative) : 숫자로 표현 (가격, 길이, 압력, 두께)
  • 범주형 (categorical): 숫자로 표현 안되는 데이터 (제품 불량 여부, 보험 사기 여부)
regression (수치 예측)
  • 큰 의미의 수치 예측
classification (범주 예측, 분류)
  • 0 = 불량, 1 = 정상

regression example

모델을 만들고 x값을 넣었을때 numerical y값을 구하는 모델

png

classification example

두 종류를 나눠주는 모델을 만들고 데이터가 주어졌을때 그 것이 어느 종류인지 알려주는 모델

png

features (특성들)을 바탕으로 불량품인지 아닌지 또는 정상인지 비정상인지 ‘종류’를 예측 하는 모델
  • x 와 y 의 관계를 찾자

  • y를 설명하는 x 변수는 보통 여러개 이다

  • 여러 종류의 x를 가지고 y와의 관계를 찾는 것

  • Y = f(X1, X2, … Xp)

Parameters (매개 변수)

coefficient = parameters (include intercept)

Y = w1 X1 + w2 X2 + ε

  • 여기서는 w1 과 w2가 parameter, ε은 오차 (error)

  • 모델의 parameter를 찾는 것이 궁극적인 목표

Loss function = Y - f(x) (손실함수 = 오차를 구해주는 식)

Best model은 Loss function이 적은 것 Y - f(x) = 0, ε = 0

Cost function = Sum ( Yi - (w1 X1i + w2 X2i ) ) ^2

개별적인 차이를 정의하는 식 // loss function과 비슷한 맥락

Cost function을 최소로하는 parameters (w1, w2)를 찾자

^w1, ^w2 (hat)

Model’s parameter를 찾는 것이 핵심

  • how? : throughout given data
  • for what? : to make my prediction to be same as my actual data as much as possible