☐ Feature Crosses ○ Over-fitting을 방지하기 위한 모델 단순화 방법 중 한 가지 ○ synthetic features 추가를 통해 linear regression 모델의 성능 개선 
- synthetic feature: 범주형 데이터나 버켓팅을 통한 continuous features로 부터 데카르트 곱을 취해 얻어진 개별 binary features들을 교차해 생성한다. - 데카르트 곱 (Cartesian product) = 곱집합 · 예시) 'ABC', 'xyz' 의 곱집합은 Ax Ay Az Bx By Bz Cx Cy Cz 이다. - 하지만, continuous features를 crossing 하는 경우는 드문 편이다. - Feature crosses는 주로 범주형 데이터의 representation에 많이 사용된다. ○ linear vs non-linear - 라인으로 데이터 집합을 구분할 수 있으면 linear, 그렇지 않으면 non-linear. 
○ Encoding Nonlinearity - 두개 이상의 input features를 곱하는 방식으로 인코딩을 할 수 있다. - feature crossing을 적용한 scaled linear models은 massive-scale 데이터 세트를 다루는데 효율적이다. - 예시) x1과 x2를 crossing해서 feature cross x3 생성 · x3 = x1x2 · y = b + w1x1 + w2x2 +w3x3 · w1, w2와 마찬가지로 w3에 대한 weight를 학습할 수 있다. - feature crosses의 종류 · [A X B] : 두 features의 값을 곱하여 만든 feature cross · [A x B x C x D x E] : 5개의 features 값을 곱하여 만든 feature cross · [A x A] : 단일 feature를 제곱하여 만든 feature cross ○ Crossing One-Hot Vectors - 실전에서 ML 모델은 one-hot feature vectors들을 crossing 하는 경우가 많다. - Think of feature crosses of one-hot feature vectors as logical conjunctions. (논리곱) - 예시)
Single Features | | Crossed One-Hot Vectors | 
|
|