-1
トピックカテゴリでタグ付けされた8つの異なるファイルフォルダに保存されている何千ものtxtドキュメントがあります(実際には1,2,3 ...)。私はカテゴリをまだ持っていない別の80 txt文書を持っています。私はそれらを分類する最良の方法を見つけようとしています。教師あり学習で.txtドキュメントをいくつかの他の.txtカテゴリに分類する
私はすでにテキストセグメンテーションを終了し、英語の文字を削除しました(中国語のテキストなので)。次に何をする必要がありますか?
私は最高のTF-IDF値を持つ単語を得ることができますが、次のやり方はわかりません。これらのテキストをベクトルに変換して分類器を訓練する必要があるようですが、
http://scikit-learn.org/stable/tutorial/text_analytics/working_with_text_data.htmlをご覧ください。 – DJanssens