최대 1 분 소요

“출처: http://www.saedsayad.com/encoding.htm”

Encoding

인코딩 혹은 연속화는 카테고리형 변수를 binary 혹은 숫자 대응 변수로 변환하는 것입니다.

카테고리형 변수를 많은 모델링 방법으로 인코딩되어야 합니다. (e.g. SVM, NN, linear regression, etc)

인코딩을 하는 주요 방법은 Binary와 Target-based가 있습니다.

png

Binary Encoding

데이터를 0과 1로 표현합니다. 만약 카테고리 변수가 k개라면 k개의 binary 변수가 필요합니다. 다음은 3개의 카테고리 값을 갖는 변수를 이진화 한 것입니다. 이러한 방법의 단점은 카테고리형 변수가 많은 경우 데이터의 차원이 엄청나게 증가한다는 것입니다.

png

Target-based Encoding

Target-based Encoding은 타겟에 대한 카테고리형 변수들을 숫자화하는 것입니다. 여기서는 categorical인 경우 타겟이 나올 확률, numerical인 경우는 타겟의 평균으로 값을 대체합니다. 이 Target-based Encoding 방법의 문제는 target 분포에 대한 의존성과 Binary Encoding 방법에 비해 예측 가능성이 낮다는 것입니다.

png

태그:

카테고리:

업데이트:

댓글남기기