사용안내 및 노트

홈으로/사용안내 및 노트
제목003. 필수 용어2020-06-15 18:48:32
작성자

☐ 필수 용어

 ○ 구글의 ML (Machine Learning) 정의

  - 머신러닝은 명시적인 프로그래밍이나 규칙 없이 소프트웨어가 작업을 수행하도록 도와주는 기능이다. 전통적으로 인공지능의 하위 범주로 분류되는 머신러닝은 인간의 뇌가 정보를 처리하는 방법에 관한 이론에서 영감을 얻은 딥러닝 (또는 신경망)과 같은 통계적 기법을 포함한다.

 ○ FEATURE

  - 입력변수 (input variable)

   · Single feature has an input variable.

   · Multiple features have input variables.

   · simple linear regression에서 변수 x로 표시한다.

   · 간단한 ML 프로젝트에서는 1 개만 사용 가능

   · 복잡한 ML 프로젝트에서는 여러 개 사용 가능 : x1, x2, x3 .. xn

   · 추상적이어서는 안 되고 구체적이어야 한다.

 ○ LABEL ( = TARGET )

  - feature를 연산해서 도출하는 출력변수 (output variable)

  - simple linear regression에서

   · 실제 label은 변수 y 로 표시

   · 예측 label은 변수 y′ 로 표시

※ simple linear regression은 y = ax + b 같은 형태

 ○ EXAMPLE

  - Particular instance of data x (vector)

  - labeled example과 unlabeled example로 구분

  - labeled example

   · {features, label}: (x, y)

   · 모델을 학습시키기 위한 (x, y) 데이터

  - unlabeled example

   · {features, ?}: (x, ?)

   · label 없이 feature(s)만으로 구성된 데이터로 label은 학습된 모델을 통해 예측

 ○ MODELS ( = data + algorithms )

  - 머신러닝 시스템이 트레이닝 데이터로부터 학습하는 것을 포괄적으로 의미하며, tensorflow에서는 다음 두 가지 의미 중 하나로 사용된다.

   · 예측 연산 방식의 구조를 나타내는 tensorflow 그래프

   · 해당 tensorflow 그래프에서 학습에 의해 결정되는 weights 및 biases

  - Modeling Phase1 : Training

   · 모델을 생성하거나 학습하는 단계

  - Modeling Phase2 : Inference

   · 학습을 마친 모델을 이용해서 unlabeled examples의 label을 예측하는 단계

   · 예측한 결과 값 (label)은 y′ 로 표시한다.

  - 모든 Supervised ML 모델은 regression과 classification으로 구분할 수 있다.

 ○ REGRESSION MODELS

  - Predicts a continuous quantity output for an example

  - 예) linear regression (“least squares regression”), polynomial regression, neural network

 ○ CLASSIFICATION MODELS

  - Predicts a discrete class label (또는 category) output for an example

  - 예) logistic regression, k nearest neighbor, decision trees, svm

   · True 또는 False 예측 (class를 확률로 변환해 반환 가능)

※ [주의] “logistic regression“은 regression이라는 단어가 포함되어 있지만, classification model에 해당한다.

 ○ LINEAR REGRESSION vs. LOGISTIC REGRESSION

Linear Regression

Logistic Regression

▪종속변수 y와 (하나 이상의) 독립변수 xi 사이의 관계를 모델링하는 선형 접근법

▪분류 값(classes)들을 대상으로 각 값의 발생 확률을 예측하는 통계 모델

▪regression 문제 해결에 사용

▪classification 문제 해결에 사용

▪독립변수에 변화가 있을 때 종속변수 추정

▪이벤트 발생 가능성 계산

▪결과 값: 연속적 (continuous)

▪결과 값: 불연속적 (discrete, constant)

▪직선 (straight line) 사용

▪S curve 또는 sigmoid function 사용

▪예: 국가 GDP 예측

▪예: 스팸 이메일 탐지 시스템

▪입력 값 : continuous value(s) and/or discrete value(s)

▪입력 값 : continuous value(s) and/or discrete value(s)

  - 어떤 문제를 해결하기 위해 확률을 도출하고자 한다면, logistic regression 방식을 사용해야 한다. 왜냐하면 linear regression의 결과 값은 0보다 작거나 1보다 클 수도 있는데, 확률은 반드시 0과 1 사이에 위치하기 때문이다.

 ○ HYPER-PARAMETERS

  - 학습을 시작하기 전에 설정하는 parameters

  - learning rate, epoch, iteration, layers, neurons, lambda 등이 이에 속함

  - 그 밖의 parameters (coefficients)들은 학습 과정에서 도출됨

 ○ CLASS

  - One of a set of enumerated target predictions for a label

  - 예) 스팸을 감지하는 binary classification 모델에서, “spam, not spam” 쌍을 목표 값 세트라 하고, 해당 세트의 요소인 “spam” 또는 “not spam”을 클래스라 한다. 각 클래스는 결과적으로 레이블로 사용된다.

   · 목표 예측 (target predictions) 값이 숫자(확률)일 경우는 class라고 하지 않는다.