Wekaによるデータの離散化(Discretize)

離散化

--

離散化では、連続的な数値の属性を離散した属性に分類します。

例えば、1年に読んだ本の冊数について以下のように人数がいたとします。

1冊:5人 2冊:5人 10冊:10人 20冊:12人 40冊:3人 47冊:1人 50冊:2人

ここで、1年に読んだ本の冊数が40冊以上の人を読書家と呼べば、下記のような属性に落とし込めます。

読書家でない:32人 読書家:6人

厳密には違うかもしれませんが、私の中では上記のように捉えています。

(何かあればコメント下さい!)

Wekaの前処理

--

f:id:inaba00032:20180721162251p:plain

フィルターから離散化を選択

f:id:inaba00032:20180721162516p:plain

Discretizeのオプションについては以下のURLを参考にできます。 http://weka.sourceforge.net/doc.dev/weka/filters/unsupervised/attribute/Discretize.htmlweka.sourceforge.net

-Rオプションでは関数を適用する列を指定しており、デフォルトのfirst-lastでは全ての列に適用されます。

以下のように各クラスについてDiscretizeを行います。

f:id:inaba00032:20180722020235p:plain

されました。