線形回帰式でのカテゴリ変数使用時の注意点

ランク落ち(多重共線性)

最小二乗法でのパラメータ推定は、

  α = (X・t_X)_(-1) ・t_X・Y

  (X:行列、t_X:Xの 転置行列、(X・t_X)_(-1):(X・t_X)の逆行列、Y:行列)

で行うが、データ間に相関があるとランク落ちが発生し、(X・tX)に逆行列が無くなるので、αが求められなくなる。

なので、例えば、性別を"man"列、と"woman"列で2つ用意し、それぞれ0/1で表すと、man列とwoman列で相関あるので、ランク落ちが発生する。なので、カテゴリ変数を数値化するときは、man列だけとかにする。(利用する機械学習モデルに正則化項があれば、相関消えるので問題ないが、時系列の統計モデル(ARモデル等)には、正則化項がないので注意!)


正則化の例

・リッジ回帰

   α = (X・t_X + λ・I)_(-1) ・t_X・Y

 (X:行列、t_X:Xの 転置行列、(X・t_X)_(-1):(X・t_X)の逆行列、Y:行列、 I:単位行列)

 正則化項として「λ・I」を足すことで、ランク落ちをなくしている。

以下の例だと、X・t_Xは、逆行列が存在しないため、αが求められないが、正則化項として λ・Iを加えていることで、ランク落ちが無くなり、αが求められる形に変わった。

上は、行列式も0になり逆行列が無いが、下のようにλ・Iを加えることで、ランク落ちが無くなり、行列式も0ではなくなり、逆行列が存在するように変わった。

機械学習Tips保管庫

データ解析、機械学習のための学習内容の保管庫。復習用。

0コメント

  • 1000 / 1000