【データ分析】特徴量とファイルの管理
めちゃ良い記事を見つけました。
自分もデータ分析コンペで悩んでたこともありすごく参考になりました(大学での研究もこうなりがちだったので助かる...!)
データ分析コンペで役に立つ特徴量管理方法と学習・推論パイプライン【コネヒトマルシェLT書き起こし】
まとめると...
- 特徴量は列ごと(変数1つ1つ)にpickleファイル(.pkl)で管理しよう!
- 特徴量詳細メモ作成の.pyファイルで特徴量のメモ(.csv)を作成しよう!(githubにあげると表がみやすい!)
- 新しい特徴量も特徴量詳細メモ作成の.pyファイルに書き込むだけ
- 一部だけ使用したいときは使用したい特徴量をread_pickleで読み込むだけ
メリット(何が嬉しかったか) * 1つのスクリプトファイル(.py)に特徴量作成をまとめたので同じ計算を複数回せずにすんだ! →特徴量の再現性も担保 * 特徴量を作成と同時にメモも作成していたのですぐ確認できて悩まずにすんだ! →コードを見直すという凡雑な作業から抜け出せる * 特徴量1つ1つ管理していたので取り回しが楽! →pickleファイルは保存も読み込みも早い
pickleファイルとは??
オブジェクトを保存できるファイル形式のことです。
pickleで保存するものは変数や配列が一般的ですがクラスでインスタンス化されたものも含みます。
またファイルデータの管理も可能です。
参考
開発効率をあげる!Pythonでpickleを使う方法【初心者向け】 | TechAcademyマガジン
データ分析コンペで役に立つ特徴量管理方法と学習・推論パイプライン【コネヒトマルシェLT書き起こし】 - コネヒト開発者ブログ