学習雑記

【3Daysインターン】無から始めるテキスト分類コンペ

Gunosy Intern data science Jupyter Notebook Preprocess

Gunosyさんのインターンに参加してきました。

題材:ニュース分類

タイトルや記事の内容から、あるニュースがどのカテゴリに所属するかを分類します。

結果は単純に分類精度で評価します。(正しく分類できた記事数/全体の記事数)

分からない

何やれば良いか分かりません...

というわけで似た問題と解法がないかを調べました

コンペということで、kaggleに似たような処理のものがあるかなーと考えました

Mercari Price Suggestion Challenge | Kaggle

ところがノウハウは直接使えそうにありませんでした。僕の認識では以下の2点が異なります。

回帰と分類では問題の性質が異なる(上記は値段の回帰問題)
英語のテキスト処理と日本語のテキスト処理は異なる(語の分かれなど)

調べ直し

似たようなデータセットにlivedoorニュース分類のデータセットがありました

www.rondhuit.com

こちらのデータセットに対して分類を行っている記事を参考にすることにしました

MeCab と scikit-learn で日本語テキストを分類する | tyamagu2.xyz

日本語の処理では分かち書きという手法を主に用いるようです(MeCabなど)

主に語の頻出度などを考慮したTfIdfVectorizerを用いて

タイトルに含まれる名詞のみを用いるなど前処理を行っていきます

結果

最終結果は15人中6位でした

以下の点を踏まえるとさらに結果は良くなりそうでした

タイトルの一部を特徴量として入れる
タイトル・本文の最初や最後の文字を特徴量として使う
記事ごとに特徴的な記号が含まれている場合があるのでそれらを考慮する

コンペに参加したのは初めてでしたが雑感としてはかなり楽しめたかなーと思います！

研究の合間にkaggleとか触れたらなーと思ったりしました