カテゴリカル変数処理時の注意点

線形回帰モデルに利用する時は、自由度を揃えるため、変数の数を「カテゴリ数−１」の数に修正する。単純に、one-hotで出来た各カテゴリの変数から一つを削除すればよい。（１カテゴリを示す変数を一つ削除しても、その他のカテゴリを示す変数たちが0ならば、そのレコードは削除した変数を示すので、一つ削除しても問題ない。）
一方で、判別モデル（特に分類木モデル）では、one-hotでできた全ての変数をそのまま使う。

Label Encoding使用時の注意点

順序変数の各カテゴリに順位付けを正しく行う時は、Pandasの辞書を使って各カテゴリごとに順位をつけ、mapメソッドで変換したほうが確実。sklearnのLabelEncoderを使うと勝手に番号が振られるので、順位を指定できない。(※ sklearnのLabelEncoderだと、文字列型の場合は、アルファベット順に、0,1,2...と順番が振られる。）

# 対象データ

users = pd.read_csv('userprofile.csv')

users.head()

# -- 欠損値のある'ambience'変数をOrdinal Encodingする

from sklearn.preprocessing import OrdinalEncoder

# Create Ordinal Encoder

ambience_ord_enc = OrdinalEncoder()

# Select non-null values in ambience

ambience = users['ambience']

ambience_not_null = ambience[ambience.notnull()]

reshaped_vals = ambience_not_null.values.reshape(-1, 1)

# Encode the non-null values of ambience

encoded_vals = ambience_ord_enc.fit_transform(reshaped_vals)

# Replace the ambience column with ordinal values

users.loc[ambience.notnull(), 'ambience'] = np.squeeze(encoded_vals)

Binary Encoding：カテゴリの数を2進数に置き換えて、その桁数内で2進数で各カテゴリを表現する。例えばカテゴリ数が４つあれば、２進数では３桁の0,1で表現でき、各桁に変数を割り当てるので、変数の数は３になる。カテゴリ数が１００ある時は、２進数では７桁で表現できるので、変数の数は７つで済む。

　・コード例

機械学習Tips保管庫

データ解析、機械学習のための学習内容の保管庫。復習用。

0コメント