Preprocess

【3Daysインターン】無から始めるテキスト分類コンペ

Gunosyさんのインターンに参加してきました。 題材:ニュース分類 タイトルや記事の内容から、あるニュースがどのカテゴリに所属するかを分類します。 結果は単純に分類精度で評価します。(正しく分類できた記事数/全体の記事数) 分からない 何やれば良いか分…

Wekaによるデータの離散化(Discretize)

離散化 -- 離散化では、連続的な数値の属性を離散した属性に分類します。 例えば、1年に読んだ本の冊数について以下のように人数がいたとします。 1冊:5人 2冊:5人 10冊:10人 20冊:12人 40冊:3人 47冊:1人 50冊:2人 ここで、1年に読んだ本の冊数が40冊以上の…