Feの活動記

日々の思ったことや技術のことについて書いてます

【データ分析】特徴量抽出と特徴量選択

今回は「特徴量抽出」と「特徴量選択」の2つについて説明していきたいと思います。

 

詳しくは2つについて「内容」、「何が嬉しいか」について説明します。

 

まずその前に特徴量とは

 

特徴量とはデータを特徴付けるもの(身長や体重など)を数値などで表現したものです。

 

特徴量抽出とは

 

特徴量抽出とは生データの特徴量から新しく特徴量を作成することです。

 

目的は機械学習モデルの予測精度などを改善することにあります。

 

特徴量抽出の代表的な例でいうと体重÷身長^2で表されるBMI(体格指標: Body Mass Index)があります。

 

特徴量選択について

 

特徴量選択は大きく分けて3つの方法があります。

 

  1. Filter Method
  2. Wrapper Method
  3. Embedded Method

があります。

 

Filter Method

データセットのみで完結する手法。しかし、データに依存する。どの機械学習モデルにも有効で処理が早い。

各変数に、

評価指標にしたがって、特徴量を1つ1つランク付けする

上位のランクの特徴量を選択する

  • カイ2乗スコア
  • フィッシャーのスコア
  • anova
  • 変数の分散

Wrapper Method

 

参考

特徴量選択のまとめ - Qiita