「 testスコア > trainスコア 」について

titanicでも、House pricesでも、testスコアの方がtrainスコアより高いケースが度々出てきたので、何故そうなり、どんな意味があるか調べたメモ。


参考サイト:


調べたところによると・・・

  • データの偏り
    ー>対策:
        • trainとtestを分割割合やrandom_stateを変えて、再度行う
        • ネストした交差検証を用いて、複数のテストデータで交差検証を行う。
  • テストデータの内容が、前処理段階で訓練データに漏れている(データリーク)
    ー>対策:
        • データリークが起きていないかチェック。
        • データ量が大きい時は、データを訓練データ、検証データ、テストデータの3つに分け、『訓練データ・検証データ』でパラメータチューニングと交差検証を行い、最終テストを『テストデータ』で行う。
  • データ不足
    ー>対策:
        • データ分割時のテストデータの割合を増やしてみる、8:2 -> 7:3 とか
        • データをできる限り増やす
        • cvの数を10回とかに増やす
  • 偶然による発生
    ー>対策:
        • データ分割時のrandom_stateを変更して再検証
        • データ分割割合の変更による再検証

機械学習Tips保管庫

データ解析、機械学習のための学習内容の保管庫。復習用。

0コメント

  • 1000 / 1000