사용안내 및 노트

홈으로/사용안내 및 노트
제목016. Generalization (일반화)2020-10-04 22:40:47
작성자

☐ Generalization (일반화)

 ○ 일반화는 신규 데이터에 대한 모델의 예측 성능 향상법을 말한다.

  - 모델 단순화 (over-fitting 방지), 데이터 나누기, 데이터 안정화 등

 ○ 모델 단순화 (over-fitting 방지)

  - over-fitting의 주요 원인

   · 모델이 training data에 과최적화된 상태를 over-fitting 이라 하는데, 모델을 너무 복잡하게 만들면 signal뿐 아니라 노이즈까지 학습되어 over-fitting이 발생한다.

  - over-fitting의 위험성

   · over-fitting이 발생하면 신규 데이터에 대한 예측력이 약화된다.

  - over-fitting을 최소화하려면 무엇보다도 모델을 단순하게 유지해야 한다.

   · 충분한 크기의 학습 데이터 확보, feature cross 적용, features 개수 줄이기, regularization 적용 등을 통해 모델을 단순화할 수 있다.

   · regularization은 데이터를 원형에 가깝게 유지할 수 있는 방법이다.

 ○ 데이터 나누기

  - 학습을 시작하기 전에 데이터를 두 그룹으로 나눈다.

   · training set (학습용)와 test set (테스트용)로 구분

  - test set에서 나타난 양호한 성과가 신규 데이터에서도 유지되려면,

   · test set가 충분히 커야 한다.

   · 같은 test set를 반복 사용하지 않는다.

   · test set는 training set와 비슷한 특성을 가지고 있어야 한다.

 ○ 데이터 안정화

  - 평균과 분산을 모두 일정한 상태로 유지한다.

 ○ 성공적인 generalization을 위한 3가지 조건

  - 독립항등분포(IID) 방식으로 랜덤하게(상호 독립적으로) examples 추출

  - 데이터 세트가 안정적(stationary) 또는 정상적 이어야 함

  - 동일 분포 영역에서 examples 추출

 ○ 위의 3가지 조건 중 일부가 침범된 사례

  - 사용자가 이미 본 광고를 다시 노출시키는 것은 iid를 침범한 사례임

  - 가게의 연간 매출정보를 데이터 세트로 사용하는 것은 안정성(stationarity)을 침범했다고 볼 수 있다. 왜냐하면 계절별로 소비형태가 다르기 때문이다.

  - 조건 침해가 확인되면 측정항목에 세심한 주의를 기울여야 한다.

 ○ 데이터 일반화 예시