不均衡データの是正方法

2020.06.16 05:56

by『前処理大全』第6章

- 不均衡データとは -

不均衡データ：例えば障害を予知するモデルを学習データから作ろうとしている時、障害で無いデータは100万件あるのに対し、障害は100件程度しかないようなバランスの悪いデータ。
対策：

データ量を減らす作業。なので、データの選択方法のみ考えれば良い。

データを間引くので、情報量を減らしてしまい、さらには重要なデータも除いてしまう可能性がある。なので、なるべく使わない方が良い。
　不均衡データのバランスをとりたいのならば、オーバーサンプリングをするほうがまし。ただし、オーバーサンプリングにより過学習が発生しやすくなるので、そういった時はオーバーサンプリングとアンダーサンプリングを併用することで対処する。まず、オーバーサンプリングで悪影響がない程度まで少ない方のデータ群を増やし、アンダーサンプリングにより、不均衡が解消される程度まで多い方のデータ群を減らす。

ランダムサンプリングにより元のデータ数より多くデータを抽出する：
　問題として、完全に同じデータが出現してしまい、過学習が発生しやすくなる。
SMOTE(Synthetic Minority Oversampling Technique)：
　過学習問題を軽減している手法。手法は、K-meansの応用っぽい。

SMOTEにより生成されたデータは、元のデータと同じ特性を保ちながら異なるノイズを加えたデータを意味するため、単純にランダムサンプリングにより生成元のデータをコピーするより自然発生したデータに近い。

SMOTEの問題点：
　次元数（生成するデータの列数）が大きい場合、大きな空間が存在するのに対して、サンプリング元のデータ間の直線上のみからサンプリングすることにより、偏りが生じやすくなる。次元数が大きい場合は、アンダーサンプリングとバギングを組み合わせて予測モデルを構築するほうが安定する。
　(バギングの詳細は、『はじめてのパターン認識(第１１章)』のページ)

例）

　製造レコードにおいて、障害が起きていない(fault_flgがfalse)レコードが927件、障害が起きている(fault_flgがTrue)レコードが73件ある。障害が起きているレコードをSMOTEでオーバーサンプリングを行い、障害が起きていないレコードの件数に近づける。

　(SMOTEのkパラメータは5とする。)

# SMOTE関数のライブラリ

from imblearn.over_sampling import SMOTE

# SMOTE関数の設定

# ratioは不均衡データにおける少ない例のデータを多い方のデータの何割まで増やすか設定

# (autoの場合は同じ数まで増やす。0.5と設定すると5割までデータを増やす。)

# k_neighborsはsmoteのkパラメータ

# random_stateは乱数のseed(乱数の生成パターンの元)

sm = SMOTE(ratio='auto', k_neighbors=5, random_state=71)

# オーバーサンプリング実行

balance_data, balance_target = \

　　sm.fit_sample(production_tb[['length', 'thickness']], production_tb['fault_flg'])

sm.fit_sample(オーバーサンプリングする対象の列データ, 分類結果)

※上記コードでは、カテゴリ値はオーバーサンプリングできない。（エンコーディングすればいいのか？）

機械学習Tips保管庫

データ解析、機械学習のための学習内容の保管庫。復習用。

0コメント