ランク落ち(多重共線性)
最小二乗法でのパラメータ推定は、
α = (X・t_X)_(-1) ・t_X・Y
(X:行列、t_X:Xの 転置行列、(X・t_X)_(-1):(X・t_X)の逆行列、Y:行列)
で行うが、データ間に相関があるとランク落ちが発生し、(X・tX)に逆行列が無くなるので、αが求められなくなる。
なので、例えば、性別を"man"列、と"woman"列で2つ用意し、それぞれ0/1で表すと、man列とwoman列で相関あるので、ランク落ちが発生する。なので、カテゴリ変数を数値化するときは、man列だけとかにする。(利用する機械学習モデルに正則化項があれば、相関消えるので問題ないが、時系列の統計モデル(ARモデル等)には、正則化項がないので注意!)
正則化の例
・リッジ回帰
α = (X・t_X + λ・I)_(-1) ・t_X・Y
(X:行列、t_X:Xの 転置行列、(X・t_X)_(-1):(X・t_X)の逆行列、Y:行列、 I:単位行列)
正則化項として「λ・I」を足すことで、ランク落ちをなくしている。
以下の例だと、X・t_Xは、逆行列が存在しないため、αが求められないが、正則化項として λ・Iを加えていることで、ランク落ちが無くなり、αが求められる形に変わった。
上は、行列式も0になり逆行列が無いが、下のようにλ・Iを加えることで、ランク落ちが無くなり、行列式も0ではなくなり、逆行列が存在するように変わった。
0コメント