사용안내 및 노트

홈으로/사용안내 및 노트
제목024. Feature Crosses2020-12-07 01:09:22
작성자

☐ Feature Crosses

 ○ Over-fitting을 방지하기 위한 모델 단순화 방법 중 한 가지

 ○ synthetic features 추가를 통해 linear regression 모델의 성능 개선

  - synthetic feature: 범주형 데이터나 버켓팅을 통한 continuous features로 부터 데카르트 곱을 취해 얻어진 개별 binary features들을 교차해 생성한다.

  - 데카르트 곱 (Cartesian product) = 곱집합

   · 예시) 'ABC', 'xyz' 의 곱집합은 Ax Ay Az Bx By Bz Cx Cy Cz 이다.

  - 하지만, continuous features를 crossing 하는 경우는 드문 편이다.

  - Feature crosses는 주로 범주형 데이터의 representation에 많이 사용된다.

 ○ linear vs non-linear

  - 라인으로 데이터 집합을 구분할 수 있으면 linear, 그렇지 않으면 non-linear.

 ○ Encoding Nonlinearity

  - 두개 이상의 input features를 곱하는 방식으로 인코딩을 할 수 있다.

  - feature crossing을 적용한 scaled linear models은 massive-scale 데이터 세트를 다루는데 효율적이다.

  - 예시) x1과 x2를 crossing해서 feature cross x3 생성

   · x3 = x1x2

   · y = b + w1x1 + w2x2 +w3x3

   · w1, w2와 마찬가지로 w3에 대한 weight를 학습할 수 있다.

  - feature crosses의 종류

   · [A X B] : 두 features의 값을 곱하여 만든 feature cross

   · [A x B x C x D x E] : 5개의 features 값을 곱하여 만든 feature cross

   · [A x A] : 단일 feature를 제곱하여 만든 feature cross

 ○ Crossing One-Hot Vectors

  - 실전에서 ML 모델은 one-hot feature vectors들을 crossing 하는 경우가 많다.

  - Think of feature crosses of one-hot feature vectors as logical conjunctions. (논리곱)

  - 예시)

Single Features

Crossed One-Hot Vectors