stemming

    -1

    1答えて

    Rでステミングした後に単語を完成させるには? x <- c("completed","complete","completion","teach","taught") tm <- Corpus(VectorSource(x)) tm <- tm_map(tm, stemDocument) inspect(tm) 実際のテキストコーパスとしての説明のための例ははるかに大きくなります。 私は

    2

    1答えて

    スノーボールを使用してリスト文字列を定義するにはどうすればよいですか? 私はこのようにそれを行うことを試みた: define patterns ( '{m}{f}{i}{l}' or '{f}{a}{i}{l}' or ....... ) リストの長さを取得する方法は?どのようにすべてのパターンに対処するには?

    -2

    1答えて

    stri_replace_all_fixed機能を使用して、Rで約4000個の文書を茎にしようとしています。しかし、私の言葉の単語の辞書は約から成っているので、それは非常に遅いです。 300kワード。文書がデンマーク語であり、したがってPorter Stemmer Algortihmが役に立たない(これはあまりにも攻撃的です)ので、私はこれをやっています。 以下のコードを投稿しました。誰もがこれを

    2

    1答えて

    テキストを含むテキストファイルからキーワードを取得しようとしていますが、テキストを最初にステミングしています。以下のコードは動作しますが、なんらかの理由でキーワードリストの前に文字「u」が生成されます。例えば。 [(u'keyword1', 5), (u'keyword2', 4)] そして「U」はどこから来るか私はわからない:これは私が得るものです。ここ は、(パッケージをインポートした後)のコ

    0

    1答えて

    別の列の単語のリストに対して単語ステミング機能を実行して、新しいpandasカラムを作成したいとします。私はapplyとlambdaを使って単一の文字列をトークン化することができますが、これを単語のリストに渡って実行する場合にどのように推論するのか分かりません。 test = {'Statement' : ['congratulations on the future','call the mec

    1

    1答えて

    に#で始まる単語の語幹基本的に、私はこのようなクエリのために(ハッシュタグが含まれています)正確な一致を得ることができるようにしたい: =#SELECT to_tsvector('english', '#adoption'); to_tsvector ------------- 'adopt':1 代わりに、私は始まる単語のためにしたいです#と表示すると、 =#SELECT to_tsv

    0

    1答えて

    ウルドゥー語、タミル語などの英語アルファベットに基づいていない言語でWord2Vecモデルを実装することは可能ですか?もしそうなら、誰かが私に経路を提案することができます。