n-gram

    0

    2答えて

    ではありません、私は私のコードでこのエラーを持っていると私は import nltk from nltk.util import ngrams def word_grams(words, min=1, max=4): s = [] for n in range(min, max): for ngram in ngrams(words, n):

    2

    2答えて

    ngramから得られたいくつかのテキストのリストを得て、元のデータテーブルに列として追加したい。 > prep_test prep_test 1: Women Athletic,Athletic Apparel,Apparel Pants,Pants Tights,Tights Leggings 2:

    2

    1答えて

    Rでtmパッケージを開始したばかりで、問題を解決できないようです。私のトークナイザ機能が正しく動作するように見えるにもかかわらず : uniTokenizer <- function(x) NGramTokenizer(x, Weka_control(min=1, max=1)) biTokenizer <- function(x) NGramTokenizer(x, Weka_control(

    0

    1答えて

    テキストブロック内の部分フレーズを検索する必要があります。ほとんどの単語は標準の長さになります。 max_gramの値を10にしておきたいのですが、それよりも多くの文字を含むID /コードが時々あることがあります。最初の10文字が一致するクエリを入力した後で残りの文字は表示されません。 例えば、ここでのマッピングは次のとおりです。 PUT my_index { "settings":

    0

    1答えて

    ファイルに保存されているngramを読みたい。そして、それはそれと一致するならば、ngram.let私はこれらのバイグラムを持っていると言うと、それを置き換える私のコーパス内の個々のトークンでそれらngramsの各単語を一致: painful punishment worldly life straight path Last Day great reward severe punish

    1

    2答えて

    は、テキストのコーパスで見つかったトップn最も一般的なバイグラムの、top_n、私はタプルのリストを持っていると言う: import nltk from nltk import bigrams from nltk import FreqDist bi_grams = bigrams(text) # text is a list of strings (tokens) fdistBigra

    1

    1答えて

    バイグラムでトピックモデルを構築したいと考えています。 Javaでこれを実装するには、どのような方法が推奨されますか? 現在、GoogleではMallet Java APIを使用しています。 具体的には、ParallelTopicModelは、トークンをインスタンスオブジェクトのデータパラメータに渡します。 ありがとうございます。

    0

    1答えて

    MxNetで文字列のセットをN-gramにしたい。おそらく、私はTFIDF Vectorizingのようなものをやっているだろうが、数と機能の限界を持つ単純なN-gramでも問題ないだろう。このための関数が組み込まれていますか?最善のアプローチは何でしょうか? 現在、私は背中のステップと、なぜたちは伝統的にnグラムでテキストを表すことになりを聞いてみよう、Pythonので def tfidf(st

    1

    1答えて

    次の問題に対処するには、誰かが正しい方向に向けることができますか? 私はUMLSから医学用語の巨大なリストを持っているサンプルは Disease control is good Disease control is poor Disease control is excellent Drug adherence Current drug Sodium Valproate Antibio