Learning Algorithms

Learning Algorithms#

random variables matrix vector eignevector

what is machine learning?#

전통적인 프로그래밍은 (rule based) explicit programming이었다. 즉 특정 조건에서 특정 결과를 도출하는 방식이었다. 하지만 이런 방식은 규칙을 만드는 것이 어렵고, 규칙이 복잡해지면 복잡해질수록 규칙을 만드는 것이 어려워진다. 또한 규칙 기반의 프로그래밍은 그 규칙들을 피할 변칙들을 모두 커버해야 하는데 그것은 사실상 어렵다. 그렇기 때문에 기계가 스스로 pattern을 learning하는 접근법이 등장했는데, 그것이 Machine learning이다.

Definition of machine learning#

Arthur Samuel

Field of study that gives computers the ability to learn without being explicitly programmed

– Machine learning Definition by Arthur Samuel 1959

Tom Mitchell

A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E.

– Tom Mitchell 1998 well-posed learning problem

Supervised learning 지도 학습#

가장 기본적인 머신러닝 툴은 supervised learning 지도학습 이다. Given a dataset with inputs X and labels Y, learn a mapping from X to y. 즉, 특정 input(X)에 대해서 label or targe(y) output이 주어진 데이터셋이 주어진 경우를 말한다. 컴퓨터는 이 X와 y 사이의 관계를 학습 및 유추를 하게 된다. 지도학습의 큰 분류는 regression 과 classification이 있다.

Regression 회귀#

the value y yor’re trying to predict is continuous

—Andrew Ng

회귀란 output y의 값이 연속적인 즉 continuous한 값을 가지는 것을 말한다. 예를 들어서 집의 크기에 따른 집값을 예측하는 것이 회귀 문제이다. 집의 크기는 연속적인 값이기 때문에 회귀 문제이다. 반면에 집의 크기에 따라서 집이 있는 동네를 예측하는 것은 classification 문제이다. 동네는 연속적인 값이 아니기 때문이다.

조금 더 나아가서 Lienar regression은 어떤 의미일까? 선형 회귀란 데이터를 가장 잘 표현할 수 있는 선형 함수를 찾는 것이다. 선형의 의미 input x의 값의 변화에 따라서 예측가능하게 output y의 값이 어떻게 변화하는지를 나타내는 것이다. 즉 input x의 값의 변화에 따라 y 값은 종속적으로 변함으로 x는 독립 변수이고 y는 종속 변수라고 표현할 수 있다.

선형 회귀는 다음과 같은 형태를 가진다.

\[ f(x) = w^Tx + b \]

여기서 \(w\)는 weight, \(b\)는 bias이다. 이것을 행렬로 표현하면 다음과 같다.

\[\begin{split} f(x) = w^Tx + b = \begin{bmatrix}w_1 & w_2 & \cdots & w_n\end{bmatrix}\begin{bmatrix}x_1 \\ x_2 \\ \vdots \\ x_n\end{bmatrix} + b \end{split}\]

아마 2강에서 더 자세하게 다룰 듯하다.

Classification 분류#

classification refers to that y takes on a discrete number of variables

하나의 feature 즉 특성으로 plot하는 것은 쉽지만, 현실적으로 어떤 데이터를 분석하기 위해서는 여러 feature들과 y의 관계를 mapping하는게 대부분의 경우일 것이다.

그런 경우에는 어떤 feature가 중요한지 feature extracting을 하기도 하고, feature들을 조합해서 새로운 feature를 만들기도 한다. 이렇게 feature들을 조합해서 새로운 feature를 만들어내는 것을 feature engineering이라고 한다.

또한

svm은 무한대의 input features를 사용한다? kernels 를 나중에 사용해서 무한대의 정보를 머신러닝에 이용할 수 있는 방법을 나중에 나온다고 한다.

Unsupervised learning 비지도 학습#

just input x, no labels

k-means clustering
구글 뉴스는 매일의 뉴스를 클러스터링해서 비슷한 뉴스들 끼리 묶는 것에서 예를 들 수 있다.
Organize computing clusters
social network analysis
market segmentation
astronomical data analysis

Reinforcement learning 강화학습#

if behaves well, ‘good dog’ compliment

개를 키우는 것과 비슷하다. 개가 잘하면 칭찬을 해주고 잘못하면 혼내주는 것처럼. 시간이 지남에 따라 잘하면 상을 주는 방식으로 진행된다. 게임 플레잉에서 이런 유형을 많이 볼 수 있다.