n-gram

    1

    1答えて

    既存のインデックスにngramのマッチングを追加する方法はありますか?私はngramsを使って検索するインデックスを作成する方法をマニュアルにたくさんの例を見ましたが、私はエラーを取得し、それらの指示に従っしようとすると: {"error":"IndexAlreadyExistsException[[nameOfIndex] already exists]","status":400} 私が使

    1

    1答えて

    Rを使用してテキストマイニングを行う場合、テキストデータを再処理した後、さらに調査するために文書用語マトリックスを作成する必要があります。しかし、中国語に似て、英語には「意味論的距離」、「機械学習」などのいくつかの段階がありますが、それらを単語に分割すると全く異なる意味があります。単語(term)。

    4

    4答えて

    最初の要素を含む最も頻繁なタプルのリストを作成しようとしています。 dは私の辞書である場合 :たとえば d = {(Hello, my): 1,(Hello, world):2, (my, name):3, (my,house):1} 私はこのようなリストを取得したい: L= [(Hello, world),(my, name)] だから私はこの試してみてください。 L = [k for

    3

    2答えて

    私はNLTKの学習を始めました。hereから、このようなバイグラムを使って条件付き確率を見つけるチュートリアルに従っています。 import nltk from nltk.corpus import brown cfreq_brown_2gram = nltk.ConditionalFreqDist(nltk.bigrams(brown.words())) しかし、私はトリグラムを使って条

    0

    2答えて

    トークン元続けます。 "iq"や "a4"などの元のトークンが見つかりません。 ngramの前にいくつかの言語固有の分析を適用していますので、フィールド全体をコピーしないようにしたいと思います。私はngramsでトークンを拡張しようとしています。 アイデアかngram-suggestionsはありますか?ここで はcustom_ngramフィルタを使用し、私のアナライザの1の例である: "fren

    2

    1答えて

    私は現時点でRのQuantedaパッケージを使用しています。内容語が互いに近くにある傾向を素早く見積もるために、ステム付き単語のnグラムを計算したいと思います。私が試してみると: twitter.files <- textfile(files) twitter.docs <- corpus(twitter.files) twitter.semantic <- twitter.docs %>%

    -1

    1答えて

    私はテキストを読むためにRを使用しています。それはリストに入れている通路は100文で構成され、その後、リストは次のようである: [[1]] [1] "WigWagCo: For #TBT here's a video of Travis McCollum (Co-Founder and COO of WigWag) at #SXSW2016 [[2]] [1] "chrisreedfi

    1

    1答えて

    MLEを使ってnグラム・モデルを訓練することに関する多くの文書を学びましたが、すべての実装がnグラムを数えて条件付き確率を計算することに気づいたので、私の質問はMLEとの関係ですか?

    0

    2答えて

    私はRの私のコーパスにquantedaを実装しようとしていますが、私は取得しています:私はこれで多くの経験を持っていない Error in data.frame(texts = x, row.names = names(x), check.rows = TRUE, : duplicate row.names: character(0) 。ここでhttps://www.dropbox.

    3

    3答えて

    私は、Rで言語モデルを構築して、前の単語に基づいて文中の次の単語を予測します。現在、私のモデルはKneser-Neyスムージングを使った単純なngramモデルです。それは、スムージングが低次ngramを補間する方法を提供するトレーニングセットにおいて最大確率(頻度)を有するngramを見つけることによって次の単語を予測する。これは高次ngramが低頻度であり、信頼できる予測を提供しない場合に有利で