時系列分析の基本2020.06.23 12:22参考サイト:時系列解析_理論編Pythonによる時系列分析の基礎Pythonのstatsmodelsで時系列分析をする基本用語:自己相関係数、偏自己相関係数自己相関係数:過去の値とどれくらい似ているか(あるいは似ていないか)を表したもの。たとえば、一日前と大きな正の自己相関があれ...
カテゴリカル変数の変換方法一覧(未)2020.06.20 02:59参考サイトAll about Categorical Variable Encoding主なカテゴリカル変数の変換方法One Hot EncodingLabel EncodingOrdinal EncodingHelmert EncodingBinary EncodingFreq...
House Prices: Advanced Regression Techniques2020.06.19 13:24内容:中古住宅価格の回帰分析目標:上位2割に入るまで以下の、各Versionは、notebookのバージョン(Ver1が一番古い)Ver5で、目標を達成したので、新しい案が出るまで一旦終了Ver5パブリックスコア:0.11915notebookリンク前回までの反省:外れ値処理:デ...
lightGBMとXGBoostの交差検証方法2020.06.17 16:14参考サイト:Python: LightGBM を使ってみるTrying to do k-fold CV on LightGBMPython: XGBoost を使ってみるRegression Example with XGBRegressor in PythonHow to Ev...
nested交差検証とパラメーターチューニング2020.06.16 12:37参考サイト:[Python] scikit-learn の交差検証で分割データをシャッフルするパラメータ選択を伴う機械学習モデルの交差検証についてStacked Regressions : Top 4% on LeaderBoardTune your preprocessing ...
「 testスコア > trainスコア 」について2020.06.15 15:03titanicでも、House pricesでも、testスコアの方がtrainスコアより高いケースが度々出てきたので、何故そうなり、どんな意味があるか調べたメモ。参考サイト:Test accuracy higher than training. How to interpret...
パラメータチューニング、交差検証などのメモ2020.06.15 13:38参考サイト:一流の「ものさし」職人になろう Cross Validation (交差検証)を深堀り機械学習、ディープラーニングでの学習データとテストデータの分割手法についてStratifiedKFold v.s KFold v.s StratifiedShuffleSplitそも...
sklearn VarianceThreshold利用時の注意点2020.06.14 14:17参考サイト:Should we normalize before using VarianceThreshold in sklearn?Feature Selection - features with low varianceApplying Filter Methods in...
時系列データにおける交差検証用のデータ分割注意点2020.06.13 04:02『前処理大全』第5章:分割より時系列データでは、単純な交差検証は有効でない。未来のデータを使って予測モデルを作成し、過去のデータを検証検証しているケースが混ざり、不当にモデル精度が高くなってしまうため。例えば、物件価格を予測するモデルを考える時、本来は過去のデータから予測モデルを...