linguistics

    9

    2答えて

    私の目標は、感情的なコンテンツのコーパス(今はtwitter)を分析することです。ちょうど今日、私は感情的な単語の枝の網羅的なリストを持つのとは対照的に、単語の茎を検索するのはちょっとした意味があることに気付きました。そして、私は4つの異なる茎があることを認識するためだけにnltk.stemを探索してきました。私は、LancasterStemmer、PorterStemmer、RegexpStem

    4

    5答えて

    Luceneを使用して検索可能なサイトがあります。私はログから、ユーザーが特定の用語を入力したために探しているものが見つからないことがあることに気付きましたが、その用語の複数のバージョンのみがサイトで使用されています。他の形式の単語の使用も検索したいと思います。これは何度も何度も解決されていると私は確信している問題なので、これのベストプラクティスは何ですか? 注意:このサイトは英語のコンテンツです