【データ分析】特徴量抽出と特徴量選択
今回は「特徴量抽出」と「特徴量選択」の2つについて説明していきたいと思います。
詳しくは2つについて「内容」、「何が嬉しいか」について説明します。
まずその前に特徴量とは
特徴量とはデータを特徴付けるもの(身長や体重など)を数値などで表現したものです。
特徴量抽出とは
特徴量抽出とは生データの特徴量から新しく特徴量を作成することです。
目的は機械学習モデルの予測精度などを改善することにあります。
特徴量抽出の代表的な例でいうと体重÷身長^2で表されるBMI(体格指標: Body Mass Index)があります。
特徴量選択について
特徴量選択は大きく分けて3つの方法があります。
- Filter Method
- Wrapper Method
- Embedded Method
があります。
Filter Method
データセットのみで完結する手法。しかし、データに依存する。どの機械学習モデルにも有効で処理が早い。
各変数に、
評価指標にしたがって、特徴量を1つ1つランク付けする
上位のランクの特徴量を選択する
- カイ2乗スコア
- フィッシャーのスコア
- anova
- 変数の分散
Wrapper Method
参考