1
マレットモデルのInputDirectoryに個別ファイルとして保存されたコーパスにポーターアルゴリズムを使用してステミングを適用したいと思います。誰かがそれがどのように実行できるかを助けることができますか?マレットをトピックモデリングに使用している間にステミングを実行する方法
マレットモデルのInputDirectoryに個別ファイルとして保存されたコーパスにポーターアルゴリズムを使用してステミングを適用したいと思います。誰かがそれがどのように実行できるかを助けることができますか?マレットをトピックモデリングに使用している間にステミングを実行する方法
現在、ドキュメントをインポートする前に、ステマーを適用することをお勧めします。 Javaプログラミングで大丈夫なら、代わりに、TokenSequenceを変更するPorterStemmer Pipeクラスを作成することもできます。
しかし、英語のテキストでトピックモデルを訓練している場合、ステミングはほぼ確実に役に立ちません。モデルは、通常、単に関連する単語を文脈でまとめることができ、ステミングは、ユーザが解釈することが困難である、奇妙なものではないかなりの言葉を生成することが多い。
返信いただきありがとうございます。 – osmjit
pythonやその他のツールを使用してドキュメントをインポートする前に、どのようにフォルダ内の複数のファイルにステミングを適用することが可能ですか?提案してください – osmjit