-1

トピックカテゴリでタグ付けされた8つの異なるファイルフォルダに保存されている何千ものtxtドキュメントがあります(実際には1,2,3 ...)。私はカテゴリをまだ持っていない別の80 txt文書を持っています。私はそれらを分類する最良の方法を見つけようとしています。教師あり学習で.txtドキュメントをいくつかの他の.txtカテゴリに分類する

私はすでにテキストセグメンテーションを終了し、英語の文字を削除しました(中国語のテキストなので)。次に何をする必要がありますか?

私は最高のTF-IDF値を持つ単語を得ることができますが、次のやり方はわかりません。これらのテキストをベクトルに変換して分類器を訓練する必要があるようですが、

+1

http://scikit-learn.org/stable/tutorial/text_analytics/working_with_text_data.htmlをご覧ください。 – DJanssens

答えて

0

単語モデルの独自のバッグを実装する代わりに、たとえばgensimのdoc2vec。独自の実装との適合が難しい優れたパフォーマンスを提供します。階層的softmaxまたは負のサンプリングのいずれかを選択できます。

関連する問題