stemming

-1熱

1答えて

Rでステミングした後に単語を完成させるには？ x <- c("completed","complete","completion","teach","taught") tm <- Corpus(VectorSource(x)) tm <- tm_map(tm, stemDocument) inspect(tm) 実際のテキストコーパスとしての説明のための例ははるかに大きくなります。私は

2熱

1答えて

スノーボールを使用した文字列のリストの定義

スノーボールを使用してリスト文字列を定義するにはどうすればよいですか？私はこのようにそれを行うことを試みた： define patterns ( '{m}{f}{i}{l}' or '{f}{a}{i}{l}' or ....... ) リストの長さを取得する方法は？どのようにすべてのパターンに対処するには？

-2熱

1答えて

stri_replace_all_fixed大きなデータセットでは遅くなりました - 代替手段はありますか？

stri_replace_all_fixed機能を使用して、Rで約4000個の文書を茎にしようとしています。しかし、私の言葉の単語の辞書は約から成っているので、それは非常に遅いです。 300kワード。文書がデンマーク語であり、したがってPorter Stemmer Algortihmが役に立たない（これはあまりにも攻撃的です）ので、私はこれをやっています。以下のコードを投稿しました。誰もがこれを

2熱

1答えて

Python Snowball Stemmer + RAKE： 'を作成します。

テキストを含むテキストファイルからキーワードを取得しようとしていますが、テキストを最初にステミングしています。以下のコードは動作しますが、なんらかの理由でキーワードリストの前に文字「u」が生成されます。例えば。 [(u'keyword1', 5), (u'keyword2', 4)] そして「U」はどこから来るか私はわからない：これは私が得るものです。ここは、（パッケージをインポートした後）のコ

0熱

1答えて

リストをpandasデータフレームのリストを使って作成する

別の列の単語のリストに対して単語ステミング機能を実行して、新しいpandasカラムを作成したいとします。私はapplyとlambdaを使って単一の文字列をトークン化することができますが、これを単語のリストに渡って実行する場合にどのように推論するのか分かりません。 test = {'Statement' : ['congratulations on the future','call the mec

1熱

1答えて

防止はPostgreSQLの全文検索

に＃で始まる単語の語幹基本的に、私はこのようなクエリのために（ハッシュタグが含まれています）正確な一致を得ることができるようにしたい： =#SELECT to_tsvector('english', '#adoption'); to_tsvector ------------- 'adopt':1 代わりに、私は始まる単語のためにしたいです＃と表示すると、 =#SELECT to_tsv

0熱

1答えて

英語以外の言語でWord2Vecを実装していますか？

ウルドゥー語、タミル語などの英語アルファベットに基づいていない言語でWord2Vecモデルを実装することは可能ですか？もしそうなら、誰かが私に経路を提案することができます。