Wekaによるデータの離散化(Discretize)
離散化
--
離散化では、連続的な数値の属性を離散した属性に分類します。
例えば、1年に読んだ本の冊数について以下のように人数がいたとします。
1冊:5人 2冊:5人 10冊:10人 20冊:12人 40冊:3人 47冊:1人 50冊:2人
ここで、1年に読んだ本の冊数が40冊以上の人を読書家と呼べば、下記のような属性に落とし込めます。
読書家でない:32人 読書家:6人
厳密には違うかもしれませんが、私の中では上記のように捉えています。
(何かあればコメント下さい!)
Wekaの前処理
--
フィルターから離散化を選択
Discretizeのオプションについては以下のURLを参考にできます。 http://weka.sourceforge.net/doc.dev/weka/filters/unsupervised/attribute/Discretize.htmlweka.sourceforge.net
-Rオプションでは関数を適用する列を指定しており、デフォルトのfirst-lastでは全ての列に適用されます。
以下のように各クラスについてDiscretizeを行います。
されました。