2016-05-10 8 views

答えて

2

現在、ドキュメントをインポートする前に、ステマーを適用することをお勧めします。 Javaプログラミングで大丈夫なら、代わりに、TokenSequenceを変更するPorterStemmer Pipeクラスを作成することもできます。

しかし、英語のテキストでトピックモデルを訓練している場合、ステミングはほぼ確実に役に立ちません。モデルは、通常、単に関連する単語を文脈でまとめることができ、ステミングは、ユーザが解釈することが困難である、奇妙なものではないかなりの言葉を生成することが多い。

+0

返信いただきありがとうございます。 – osmjit

+0

pythonやその他のツールを使用してドキュメントをインポートする前に、どのようにフォルダ内の複数のファイルにステミングを適用することが可能ですか?提案してください – osmjit

関連する問題