- 内容:アメリカ3州のウォルマート店舗の商品販売数の予測
- 方針:8日間しかないので、以下の方針で進める
- 目標:時系列データの分析方法、モデリング方法の学習
- 時間配分:
- データ分析:3日間
- 前処理、モデリング:5日間
(※時間がないので、パラメータチューニングはあまり行わない) - 結果:
- Public Leaderboard: 729 / 5558 ー Private Leaderboard:3241 / 5558
- 反省:
- スコアの見方間違い:
Publicスコアと、自分での汎化性能評価のRMSEとのズレの理由をきちんと調べずにすすめていたため、汎化性能が悪くなっているのに、Publicスコアが上がっているので、自分のRMSEのスコアリングに問題があるのかと勘違いして、Publicスコアを上げることに夢中になっていた。Publicスコアは計算による参考値程度なのだそうなので、正しく自分で汎化性能を測り、モデリングを進めること。 - 分析結果を特徴量エンジニアリングに活かせていない:
分析フェーズで、様々な周期性・法則性などが見いだせても、それを特徴量として表現する方法がわかっていないことに気づく。過去のkaggleのNotebookなどを参考に様々な表現方法を身に着けていく必要がある。 - 無駄に複雑になり、どこを直せばいいのはわからなくなる:
特徴量の表現方法の不足にも関係するが、思いつくままに作っていった結果、どんどんコードが汚くなり、管理しづらい状態を招いた。思いついたことを一度にまとめて書き込んだら、どれが効果があり、どれが悪いかわからなくなるので、一つづつ勧めていくこと。次回は、エクセルなどで思考プロセスを整理しながら進めてみる。 - 時系列データのモデリング手法の未理解:
今回のトライで、時系列モデリングは、通常の回帰問題と同じに考えられないことを理解した。lagなど、時系列データの解析・モデリング手法を過去のkaggle問題から学ぶ必要あり。 - 単一モデルで全て表現しようとしていた:
high scoreの方々のコードを見ると、各商品ごとにモデルを作成し販売数を予測していた。商品ごとに販売傾向があるので、商品ごとにモデルを作成したほうが、データ数がそれなりにあれば、予測ができる。モデルを複数作成することが頭になかったので、分析フェーズで、商品・カテゴリごとにパターンがあるとわかったら、次回からパターンごとのモデルを作成することも念頭に入れておくこと。 - Notebookリンク
- 参考notebook
0コメント