「 testスコア > trainスコア」について

2020.06.15 15:03

titanicでも、House pricesでも、testスコアの方がtrainスコアより高いケースが度々出てきたので、何故そうなり、どんな意味があるか調べたメモ。

参考サイト：

調べたところによると・・・

データの偏り
ー＞対策：

trainとtestを分割割合やrandom_stateを変えて、再度行う
ネストした交差検証を用いて、複数のテストデータで交差検証を行う。

テストデータの内容が、前処理段階で訓練データに漏れている（データリーク）
ー＞対策：

データリークが起きていないかチェック。
データ量が大きい時は、データを訓練データ、検証データ、テストデータの３つに分け、『訓練データ・検証データ』でパラメータチューニングと交差検証を行い、最終テストを『テストデータ』で行う。

データ不足
ー＞対策：

データ分割時のテストデータの割合を増やしてみる、8:2 -> 7:3 とか
データをできる限り増やす
cvの数を10回とかに増やす

偶然による発生
ー＞対策：

データ分割時のrandom_stateを変更して再検証
データ分割割合の変更による再検証

機械学習Tips保管庫

データ解析、機械学習のための学習内容の保管庫。復習用。

0コメント

1000 / 1000