stemming

4熱

3答えて

ポルトガル語の文字列をステミングする必要があります。これを行うには、nltk.word_tokenize（）関数を使用して文字列をトークンし、各単語を個別にステミングします。その後、私は文字列を再構築します。それは機能していますが、うまく機能しません。どうすれば速くすることができますか？文字列の長さは約200万語です。 tokenAux="" tokens = nltk.word_tok

0熱

1答えて

Python NLTKにおける感情分析のためのドイツ語ステミング

私は最近、ドイツ語テキストのセンチメント分析プロジェクトに取り掛かりましたが、結果を改善するためにステマーを使用する予定です。 NLTKにはドイツのSnowball Stemmerが付属していますが、すでに使用しようとしていますが、結果は不明です。多分それはこのようにすべきですが、言語学者ではなくコンピュータ科学者であるため、私は動詞の形が異なる幹につながってしまう問題があります。 "suchen

0熱

2答えて

stemDocumentをRで実行した後、元のformとともにすべてのステム付き単語のリストを取得する方法

ステム付きのすべての単語のリストを元のフォームと共に取得しようとしています。は、ここで私はこれがあなたのために役立つものになることがあり、データフレームに、このような答えを orginal_word stemmed Impressed Impress shipping ship very veri helpful help wonderful wonder experi

0熱

1答えて

ステミングアルゴリズムを使用してC＃でリバースステミングを実行するにはどうすればよいですか？

Stemmersアルゴリズムの逆を実行するアルゴリズムはありますか？つまり、ステム「はが必要です」を指定すると、ステム「require」ですべての単語を見つける方法はありますか？常に同じ単語のバリエーションが見つかりました。要件、要件、必要、必要。すべてが共通して「必要」を持っています。ステム "require"ですべての単語を識別する機能を組み込むことができれば素晴らしいと思います。私たちは

-1熱

1答えて

Azure Search Serviceを使用してすべてのクエリトークンを生成できますか？

実際のDBソースをリンクせずに、空白の検索APIを使用して特定のクエリのすべてのトークンを取得することは可能ですか？私は、ユーザーが入力したクエリに対してステミングやストップワードなどを削除し、それをSharePointに渡して検索結果を取得するなどの操作をしたいと考えています。例えば検索クエリである「走った」場合は、SharePointのに送られた変換クエリは、「実行」を含んでなり、「走った」

1熱

1答えて

SnowballStemmer for Russian words list

私はSnowballStemmerを1つの単語（私の場合は、ロシア語のもの）で実行する方法を知っています。次のことをやって： from nltk.stem.snowball import SnowballStemmer stemmer = SnowballStemmer("russian") stemmer.stem("Василий") 'Васил' 私は[「Василий」、「Г

0熱

1答えて

Solrでクエリごとに同義語とステミングを無効にする

Googleは正当な検索エンジンを運用しています。弁護士は、一般的には類義語と形容詞が一般に必要ですが、特定のクエリではそれを無効にしたい場合があります。例えば、我々はのために検索したい1人のユーザーいます judgments ない： judgements (with two e's) または： judgment (singular, not plural) はこれを行う方法はありま

0熱

1答えて

元の文字列を置き換える弾性検索のステミング

私は以下の設定を使ってESインデックスを作成しました。 "settings": { "analysis" : { "analyzer" : { "my_analyzer" : { "tokenizer" : "standard", "filter" : ["standard", "lowercase", "my_stemmer"]

0熱

2答えて

私のTerm Document Matrixに最後に文字がないのはなぜですか？

enter image description here私はワードクラウドの作成に取り組んでいます。作成時には、最後のアルファベットがない多くの単語が表示されます。例：Movie - > movi、become - > become 私は黄色で単語をマークしました。最後の1〜2文字が欠けている