stemming

    4

    3答えて

    ポルトガル語の文字列をステミングする必要があります。これを行うには、nltk.word_tokenize()関数を使用して文字列をトークンし、各単語を個別にステミングします。その後、私は文字列を再構築します。それは機能していますが、うまく機能しません。どうすれば速くすることができますか?文字列の長さは約200万語です。 tokenAux="" tokens = nltk.word_tok

    0

    1答えて

    私は最近、ドイツ語テキストのセンチメント分析プロジェクトに取り掛かりましたが、結果を改善するためにステマーを使用する予定です。 NLTKにはドイツのSnowball Stemmerが付属していますが、すでに使用しようとしていますが、結果は不明です。多分それはこのようにすべきですが、言語学者ではなくコンピュータ科学者であるため、私は動詞の形が異なる幹につながってしまう問題があります。 "suchen

    0

    2答えて

    ステム付きのすべての単語のリストを元のフォームと共に取得しようとしています。 は、ここで私はこれがあなたのために役立つものになることがあり、データフレームに、このような答えを orginal_word stemmed Impressed Impress shipping ship very veri helpful help wonderful wonder experi

    0

    1答えて

    Stemmersアルゴリズムの逆を実行するアルゴリズムはありますか?つまり、ステム「はが必要です」を指定すると、ステム「require」ですべての単語を見つける方法はありますか? 常に同じ単語のバリエーションが見つかりました。要件、要件、必要、必要。すべてが共通して「必要」を持っています。ステム "require"ですべての単語を識別する機能を組み込むことができれば素晴らしいと思います。 私たちは

    -1

    1答えて

    実際のDBソースをリンクせずに、空白の検索APIを使用して特定のクエリのすべてのトークンを取得することは可能ですか?私は、ユーザーが入力したクエリに対してステミングやストップワードなどを削除し、それをSharePointに渡して検索結果を取得するなどの操作をしたいと考えています。例えば 検索クエリである「走った」場合は、SharePointのに送られた変換クエリは、「実行」を含んでなり、「走った」

    1

    1答えて

    私はSnowballStemmerを1つの単語(私の場合は、ロシア語のもの)で実行する方法を知っています。次のことをやって: from nltk.stem.snowball import SnowballStemmer stemmer = SnowballStemmer("russian") stemmer.stem("Василий") 'Васил' 私は[「Василий」、「Г

    0

    1答えて

    Googleは正当な検索エンジンを運用しています。弁護士は、一般的には類義語と形容詞が一般に必要ですが、特定のクエリではそれを無効にしたい場合があります。例えば 、我々はのために検索したい1人のユーザーいます judgments ない: judgements (with two e's) または: judgment (singular, not plural) はこれを行う方法はありま

    0

    1答えて

    私は以下の設定を使ってESインデックスを作成しました。 "settings": { "analysis" : { "analyzer" : { "my_analyzer" : { "tokenizer" : "standard", "filter" : ["standard", "lowercase", "my_stemmer"]

    0

    2答えて

    enter image description here私はワードクラウドの作成に取り組んでいます。作成時には、最後のアルファベットがない多くの単語が表示されます。例:Movie - > movi、become - > become 私は黄色で単語をマークしました。最後の1〜2文字が欠けている