アラフォーから色々始めるリケジョの独り言

アラフォーになって色々始めてみました手探りでがんばります。

【Python】100本ノックやってます。p‐75~p-80

P-075: 顧客データ(df_customer)からランダムに1%のデータを抽出し、先頭から10件表示せよ。

これはfracで問題なく。

smart-hint.com

P-076: 顧客データ(df_customer)から性別コード(gender_cd)の割合に基づきランダムに10%のデータを層化抽出し、性別コードごとに件数を集計せよ。

素直にgroupbyしてそれぞれの人数出して、10%の人数出したんだけど、解答例はまた知らないのでてきた。

# sklearn.model_selection.train_test_splitを使用した例」

 

P-077: レシート明細データ(df_receipt)の売上金額を顧客単位に合計し、合計した売上金額の外れ値を抽出せよ。なお、外れ値は売上金額合計を対数化したうえで平均と標準偏差を計算し、その平均から3σを超えて離れたものとする(自然対数と常用対数のどちらでも可)。結果は10件表示せよ。

happy-analysis.com

外れ値って何ぞやがわからないことが問題、コード組むこと自体は問題なし。

P-078: レシート明細データ(df_receipt)の売上金額(amount)を顧客単位に合計し、合計した売上金額の外れ値を抽出せよ。ただし、顧客IDが"Z"から始まるのものは非会員を表すため、除外して計算すること。なお、ここでは外れ値を第1四分位と第3四分位の差であるIQRを用いて、「第1四分位数-1.5×IQR」を下回るもの、または「第3四分位数+1.5×IQR」を超えるものとする。結果は10件表示せよ。

 

qiita.com

P-079: 商品データ(df_product)の各項目に対し、欠損数を確認せよ。

df_product.isnull().sum()

 

P-080: 商品データ(df_product)のいずれかの項目に欠損が発生しているレコードを全て削除した新たな商品データを作成せよ。なお、削除前後の件数を表示させ、079で確認した件数だけ減少していることも確認すること。

.dropna()

でNaNが削除できる!