M-5 Forecasting

2020.07.03 03:10

内容：アメリカ３州のウォルマート店舗の商品販売数の予測
方針：８日間しかないので、以下の方針で進める

目標：時系列データの分析方法、モデリング方法の学習
時間配分：

データ分析：３日間
前処理、モデリング：５日間
(※時間がないので、パラメータチューニングはあまり行わない）

結果：

Public Leaderboard： 729 / 5558 ー Private Leaderboard：3241 / 5558

反省：

スコアの見方間違い：
　Publicスコアと、自分での汎化性能評価のRMSEとのズレの理由をきちんと調べずにすすめていたため、汎化性能が悪くなっているのに、Publicスコアが上がっているので、自分のRMSEのスコアリングに問題があるのかと勘違いして、Publicスコアを上げることに夢中になっていた。Publicスコアは計算による参考値程度なのだそうなので、正しく自分で汎化性能を測り、モデリングを進めること。
分析結果を特徴量エンジニアリングに活かせていない：
　分析フェーズで、様々な周期性・法則性などが見いだせても、それを特徴量として表現する方法がわかっていないことに気づく。過去のkaggleのNotebookなどを参考に様々な表現方法を身に着けていく必要がある。
無駄に複雑になり、どこを直せばいいのはわからなくなる：
　特徴量の表現方法の不足にも関係するが、思いつくままに作っていった結果、どんどんコードが汚くなり、管理しづらい状態を招いた。思いついたことを一度にまとめて書き込んだら、どれが効果があり、どれが悪いかわからなくなるので、一つづつ勧めていくこと。次回は、エクセルなどで思考プロセスを整理しながら進めてみる。
時系列データのモデリング手法の未理解：
　今回のトライで、時系列モデリングは、通常の回帰問題と同じに考えられないことを理解した。lagなど、時系列データの解析・モデリング手法を過去のkaggle問題から学ぶ必要あり。
単一モデルで全て表現しようとしていた：
　high scoreの方々のコードを見ると、各商品ごとにモデルを作成し販売数を予測していた。商品ごとに販売傾向があるので、商品ごとにモデルを作成したほうが、データ数がそれなりにあれば、予測ができる。モデルを複数作成することが頭になかったので、分析フェーズで、商品・カテゴリごとにパターンがあるとわかったら、次回からパターンごとのモデルを作成することも念頭に入れておくこと。

Notebookリンク

参考notebook

機械学習Tips保管庫

データ解析、機械学習のための学習内容の保管庫。復習用。

0コメント

1000 / 1000