2020.05

sklearnのGridSearchCV()での、平均平方２乗誤差(RMSE)や平均２乗誤差(MSE)の算出について

2020.05.31 10:24

参考サイト：scikit-learnでサポートベクトル回帰、及びそのパラメーター推計 with クロスバリデーションやってみるいろいろな予測誤差の指標についてscikit-learn で回帰モデルの結果を評価するscikit-learn cross validation, neg...

外れ値について（Boxplotとかカテゴリカル変数の外れ値とか、Tukey法のコードとか）

2020.05.22 14:37

(1) カテゴリカル変数の外れ値について参考サイト：Categorical Outliers Don’t ExistAre outliers possible with categorical data　数学的に、Categorical変数で外れ値を検出する方法はない。なぜなら、...

MICE、KNNによる欠損値処理

2020.05.16 13:42

参考資料：Imputing using fancyimpute欠損値処理時の注意点：まず以下の点を確認すること欠損値の意味：　欠損値が必ずしも欠損値を示さず、ただの『該当無し』を示す場合がある。その場合は、欠損値として扱わず、該当なしであることを意味するように'Non...

kaggle - Titanic

2020.05.15 14:27

■Titanicで作成したnotebook一覧notebook：新規特徴量作成実験_notebook飽きてきたので、グラフを眺めて思いつくままに変数を組み合わせて新しい特徴量を作成し、効果を検証モデルに利用する特徴量は、Wrapper Methodで一番訓練スコアが高い特徴量の組...

one-hot化変数に対するNormalizationについて

2020.05.13 10:03

カテゴリカル変数をone-hotエンコーディングにより２値変数化したモノにたいしてNormalizationが必要かのメモ参考サイト：Should one hot vectors be scaled with numerical attributesDo I need to st...

9章長いSQLを読み解く

2020.05.10 03:02

■■■データ分析でよくある長いSQLの読み方■■■① 内側のSELECT文から読むサブクエリはカッコ()で囲まれているが、数学の数式と同じく、カッコ内は先に処理される。なので、内側から読んでいく。② SELECT文は句の処理順に読む　以下の順番で処理が進むFROMJOINON (...

新しい特徴量の合成

2020.05.08 12:47

参考サイトDo combination of existing features make new features ?機械学習エンジニアの奥義、特徴量エンジニアリングについて調べてみたrandomForestで有効な交互作用を発見したいFeature Interaction (...

主成分分析(PCA)の使いどころ

2020.05.08 09:02

主成分分析とは、固有ベクトルを並べて新しく部分空間を作り、そこにデータを写像することで次元の縮約を行う手法。具体的な内容・コーディング例は、以下で復習。　▶ 固有値・固有ベクトルの学習ノート　▶ 主成分分析・特異値分解の学習ノート　▶ コーディング例（sklearnによるPCA）...

特徴量間の無相関化

2020.05.04 06:39

固有値と固有ベクトルを用いて、観測データの特徴間の相関を処理分散・共分散行列は実対称行列なので、各固有値は実数で固有ベクトルは互いに直行する。（正規直交基底）それら固有ベクトルをならべて行列を作り、その行列の逆行列で線形変換を行い、特徴量間を無相関化する。　　詳しくは、学習ノート...