M-5 Forecasting

  • 内容:アメリカ3州のウォルマート店舗の商品販売数の予測

  • 方針:8日間しかないので、以下の方針で進める
      • 目標:時系列データの分析方法、モデリング方法の学習
      • 時間配分:
          • データ分析:3日間
          • 前処理、モデリング:5日間
            (※時間がないので、パラメータチューニングはあまり行わない)
  • 結果:
      • Public Leaderboard: 729 / 5558   ー   Private Leaderboard:3241 / 5558

  • 反省:
      • スコアの見方間違い
         Publicスコアと、自分での汎化性能評価のRMSEとのズレの理由をきちんと調べずにすすめていたため、汎化性能が悪くなっているのに、Publicスコアが上がっているので、自分のRMSEのスコアリングに問題があるのかと勘違いして、Publicスコアを上げることに夢中になっていた。Publicスコアは計算による参考値程度なのだそうなので、正しく自分で汎化性能を測り、モデリングを進めること。

      • 分析結果を特徴量エンジニアリングに活かせていない
         分析フェーズで、様々な周期性・法則性などが見いだせても、それを特徴量として表現する方法がわかっていないことに気づく。過去のkaggleのNotebookなどを参考に様々な表現方法を身に着けていく必要がある。

      • 無駄に複雑になり、どこを直せばいいのはわからなくなる
         特徴量の表現方法の不足にも関係するが、思いつくままに作っていった結果、どんどんコードが汚くなり、管理しづらい状態を招いた。思いついたことを一度にまとめて書き込んだら、どれが効果があり、どれが悪いかわからなくなるので、一つづつ勧めていくこと。次回は、エクセルなどで思考プロセスを整理しながら進めてみる。

      • 時系列データのモデリング手法の未理解
         今回のトライで、時系列モデリングは、通常の回帰問題と同じに考えられないことを理解した。lagなど、時系列データの解析・モデリング手法を過去のkaggle問題から学ぶ必要あり。

      • 単一モデルで全て表現しようとしていた
         high scoreの方々のコードを見ると、各商品ごとにモデルを作成し販売数を予測していた。商品ごとに販売傾向があるので、商品ごとにモデルを作成したほうが、データ数がそれなりにあれば、予測ができる。モデルを複数作成することが頭になかったので、分析フェーズで、商品・カテゴリごとにパターンがあるとわかったら、次回からパターンごとのモデルを作成することも念頭に入れておくこと。

  • Notebookリンク





機械学習Tips保管庫

データ解析、機械学習のための学習内容の保管庫。復習用。

0コメント

  • 1000 / 1000