사용안내 및 노트

홈으로/사용안내 및 노트
제목020. Representation - 양질의 features 생성에 필요한 요건2020-11-01 21:28:19
작성자

☐ Representation - 양질의 features 생성에 필요한 요건

 ○ 거의 사용되지 않는 feature value는 배제

  - 유용한 feature value라면 전체 데이터 세트 내에 5회 이상 노출되어야 한다.

   · 해당 feature value가 포함된 example이 많을수록 모델이 다양한 환경에서 인과관계를 학습하는데 유용하다.

 ○ 명확한 의미를 가진 용어와 상식적인 value 사용

  - 좋은 예) house_age_years: 27

  - 나쁜 예) house_age: 851472000, user_age_years: 277

 ○ 특이 값이나 magic value를 실제 데이터와 혼용하지 말 것

  - 가령 어느 feature가 0과 1사이의 floating point 값을 가진다고 가정하자.

   · 좋은 예) quality_rating: 0.82, quality_rating: 0.37

   · 그런데 값이 없는 경우에는 quality_rating를 magic value인 –1로 표시한다고 하면 이는 범위를 벗어난 특이 값이 된다.

   · 이럴 때에는 “is_quality_rating_defined”와 같은 boolean형 feature name을 추가하여 처리하는 것이 좋다.

  - magic value를 다루는 일반적인 방법

   · For discrete variables, add a new value to the set and use it to signify that the feature value is missing.

   · For continuous variables, ensure missing values do not affect the model by using the mean value of the feature's data.

 ○ upstream instability에 대한 대비

  - The definition of a feature shouldn't change over time.

   · 좋은 예) city_id: "kr/seoul" 같은 형태는 seoul이라는 명칭이 바뀔 가능성이 없다.

   · 나쁜 예) inferred_city_cluster: "219" 같은 형태는 "219" 라는 숫자가 현재는 해당 도시를 나타내지만 바뀔 가능성도 있다.