☐ Representation - 양질의 features 생성에 필요한 요건 ○ 거의 사용되지 않는 feature value는 배제 - 유용한 feature value라면 전체 데이터 세트 내에 5회 이상 노출되어야 한다. · 해당 feature value가 포함된 example이 많을수록 모델이 다양한 환경에서 인과관계를 학습하는데 유용하다. ○ 명확한 의미를 가진 용어와 상식적인 value 사용 - 좋은 예) house_age_years: 27 - 나쁜 예) house_age: 851472000, user_age_years: 277 ○ 특이 값이나 magic value를 실제 데이터와 혼용하지 말 것 - 가령 어느 feature가 0과 1사이의 floating point 값을 가진다고 가정하자. · 좋은 예) quality_rating: 0.82, quality_rating: 0.37 · 그런데 값이 없는 경우에는 quality_rating를 magic value인 –1로 표시한다고 하면 이는 범위를 벗어난 특이 값이 된다. · 이럴 때에는 “is_quality_rating_defined”와 같은 boolean형 feature name을 추가하여 처리하는 것이 좋다. - magic value를 다루는 일반적인 방법 · For discrete variables, add a new value to the set and use it to signify that the feature value is missing. · For continuous variables, ensure missing values do not affect the model by using the mean value of the feature's data. ○ upstream instability에 대한 대비 - The definition of a feature shouldn't change over time. · 좋은 예) city_id: "kr/seoul" 같은 형태는 seoul이라는 명칭이 바뀔 가능성이 없다.
· 나쁜 예) inferred_city_cluster: "219" 같은 형태는 "219" 라는 숫자가 현재는 해당 도시를 나타내지만 바뀔 가능성도 있다. |