snowball

    1

    1答えて

    私はRには新しく、csvファイルを使用して用語ドキュメントマトリックスを作成しようとしています。しかし結果は、最後に文字「e」が欠けていることを示しています。どのようにして完全な単語を示す用語の文書マトリックスを作ることができますか?あなたが右に見えない部分を見たときに私に知らせることができればそれは素晴らしいことでしょう。ありがとうございました! library(tm) posts<-read

    0

    1答えて

    以下は私のコーパスと私の文書をどのように傷つけているかです。しかし、例えば、「仕事」や「仕事」などは、時間が長くなります。これらは、私の分析の中で、すべての目的や目的にあわせて同じ言葉です。 "-ed"エンディングを削除するパッケージまたはコードスニペットがありますか?ありがとう! library(tm) docs<-Corpus(DirSource(cname)) summary(docs

    0

    1答えて

    私は最近、ドイツ語テキストのセンチメント分析プロジェクトに取り掛かりましたが、結果を改善するためにステマーを使用する予定です。 NLTKにはドイツのSnowball Stemmerが付属していますが、すでに使用しようとしていますが、結果は不明です。多分それはこのようにすべきですが、言語学者ではなくコンピュータ科学者であるため、私は動詞の形が異なる幹につながってしまう問題があります。 "suchen

    1

    1答えて

    ワード長が、私は位置0の文字位置の文字を削除したい5.では、3パイソンと はこのように思える:は word = word[1:3] + word[4] #this is with python 質問は、私が行うことができますされてどのようにそれは雪のボールで?

    0

    2答えて

    ドイツ語の言語アナライザーを使用して一部のコンテンツをトークン化しています。私は基本的に "小文字"、 "german_stop"、 "german_keywords"、 "german_normalization"、 "german_stemmer"のマクロフィルタであることを知っています。 私の問題はノミラル化フィルタと関係があります。ここにはElasticsearch Documentati

    1

    1答えて

    私はSnowballStemmerを1つの単語(私の場合は、ロシア語のもの)で実行する方法を知っています。次のことをやって: from nltk.stem.snowball import SnowballStemmer stemmer = SnowballStemmer("russian") stemmer.stem("Василий") 'Васил' 私は[「Василий」、「Г

    2

    1答えて

    私は雪球ステミングアルゴリズムを理解しようとしています。 HW90には例と同様の質問がありましたが、私のものではありませんでした。母音に続く最初の非母音の後の領域であるか、または存在する場合、単語の終わりに ヌル領域で R1:algorithmusは、以下のようにdefiniedされた2つの領域R1およびR2を使用していますそのような非母音はありません。 R2は、R1の母音に続く最初の非母音の後の

    0

    1答えて

    データセット(data.tableパッケージを介してアップロードされた)のステマー関数を約40000行のRで実行しようとしていますが、それは永遠に実行されます。私のコードは次のようになります。プロセスを手動で停止した場合、それはのように50回の以上の警告を示し data[, Description := map(Description, function(k) stemmer(k))] : I

    2

    1答えて

    スノーボールを使用してリスト文字列を定義するにはどうすればよいですか? 私はこのようにそれを行うことを試みた: define patterns ( '{m}{f}{i}{l}' or '{f}{a}{i}{l}' or ....... ) リストの長さを取得する方法は?どのようにすべてのパターンに対処するには?

    0

    1答えて

    elasticsearch2.3.3とNest 2.3.2を使用して添付ファイルのインデックスを作成しました。インデックスは以下のとおりです。私はドキュメント内に複数形の単数形の単語を探しています。読み込み中の雪玉茎はこの種の変換を行います。しかし、レコードは検索で返されませんでした。そこに追加のプラグイン/単語コレクションが必要になりました。誰も助けることができます。 { "mydocs":{