前処理に関する各種疑問点の確認

(1) min-maxとstandardizationの使い分け

  • どちらも試していい方を取るしか無い。
  • RobustScalerなど別な手法も効果がある場合があるので上記2つ以外の方法を試してみる。
  • 線形モデル、勾配効果法など各変数のスケールが関係するモデリングには、変数のスケーリングが必要。(例外は、RandamForestなどの分類木モデルなど変数間のスケールが関係ないもの。)

     正規化(min-max)と標準化(standardization)


(2) 独立変数間の相関

  • 独立変数間で強い相関があるものは、2つはいらないので片方除外。
  • ただし、独立変数を組み合わせることで役立つ特徴量を見逃す危険がある。

 削除方法のコーディング例


(3) 対数変換の効果

 対数変換について を参照


(4) 無相関化の仕方と使いどころ

  • 無相関化の仕方は以下で復習

 特徴量間の無相関化

  • 無相関化の使いどころ

 住宅価格予測で相関が高い独立変数が複数あるのでそれらで試す。

 ▶ 結果

機械学習Tips保管庫

データ解析、機械学習のための学習内容の保管庫。復習用。

0コメント

  • 1000 / 1000