第２章：抽出

2020.06.02 03:23

2-2 インデックスを間接的に利用したデータ行の抽出

SQL

インデックスが効いているデータを条件式の最初に加えることで、条件式内でインデックスを効かす。（インデックスが効いている列と抽出対象列に関係がないとできない）

2-3 サンプリング

SQL

WHERE RANDOM() <= 0.5　# 計算コスト低い

Python

reserve_tb.sample(frac=0.5) # sample関数の利用

2-4 集約IDに基づくサンプリング

SQL

WITH reserve_tb_random AS(
SELECT
*,
-- customer_id に対して一意の値となる乱数生成
　　 -- 生成した乱数をcustomer_id ごとにまとめて、１番目の値を取り出す
　　 FIRST_VALUE(RANDOM()) OVER (PARTITION BY customer_id) AS random_num
　FROM
　　reserve_tb
)
SELECT *
FROM reserve_tb_random
-- 50%サンプリング、customer_idごとに設定された乱数が0.5以下の場合に抽出
WHERE random_num <= 0.5;

Python

# sample関数を利用するためにpandas.Series()に変換
# sample関数によって、顧客IDをサンプリング
target = pd.Series(reserve_tb['customer_id'].unique()).sample(frac=0.5)
# isin関数により、customer_idがサンプリングした顧客IDのいずれかに一致した行を抽出
reserve_tb[reserve_tb['customer_id'].isin(target)]

機械学習Tips保管庫

データ解析、機械学習のための学習内容の保管庫。復習用。

0コメント

1000 / 1000