主成分分析(PCA)の使いどころ

主成分分析とは、固有ベクトルを並べて新しく部分空間を作り、そこにデータを写像することで次元の縮約を行う手法。


具体的な内容・コーディング例は、以下で復習。

 ▶ 固有値・固有ベクトルの学習ノート

 ▶ 主成分分析・特異値分解の学習ノート

 ▶ コーディング例(sklearnによるPCA)


使いどころ

  • データのビジュアライズ:2,3次元に縮約してビジュアル化
  • 計算コストの削減:数百・数千次元のデータに対して主成分分析によりデータ表現に有用な低次元のデータに写像することで、モデリングに対する計算コストを削減する。


使用上の課題

  • 次元削減後の各特徴量が何を表しているのかわからない。:例えば、気温・湿度・気圧・の3変数を次元削減して2変数にした場合、その2変数が何の特徴を表しているのか推測しないとわからない。
  • 計算コストが高い。:使いどころと矛盾するが、特異値の計算コストが高いので、実際に利用する時は、まず、定数に近い変数や相関の高い変数を削除して無駄な変数をできるだけへらしてから主成分分析かけるようにする。
  • 外れ値に大きく影響を受ける。:分散が最大になるベクトルを探すため、元のデータが外れ値を持っていると分散が大きくブレるので、最初に外れ値の処理が必要。


機械学習Tips保管庫

データ解析、機械学習のための学習内容の保管庫。復習用。

0コメント

  • 1000 / 1000