n-gram

1熱

1答えて

既存のインデックスにngramのマッチングを追加する方法はありますか？私はngramsを使って検索するインデックスを作成する方法をマニュアルにたくさんの例を見ましたが、私はエラーを取得し、それらの指示に従っしようとすると： {"error":"IndexAlreadyExistsException[[nameOfIndex] already exists]","status":400} 私が使

1熱

1答えて

Rテキストマイニング文書を語句ではなくフレーズに分割する方法

Rを使用してテキストマイニングを行う場合、テキストデータを再処理した後、さらに調査するために文書用語マトリックスを作成する必要があります。しかし、中国語に似て、英語には「意味論的距離」、「機械学習」などのいくつかの段階がありますが、それらを単語に分割すると全く異なる意味があります。単語（term）。

4熱

4答えて

最初の要素を含む最も頻繁なタプルのリストを作成する

最初の要素を含む最も頻繁なタプルのリストを作成しようとしています。 dは私の辞書である場合：たとえば d = {(Hello, my): 1,(Hello, world):2, (my, name):3, (my,house):1} 私はこのようなリストを取得したい： L= [(Hello, world),(my, name)] だから私はこの試してみてください。 L = [k for

3熱

2答えて

python nltkでトリグラムの条件付き確率を見つける

私はNLTKの学習を始めました。hereから、このようなバイグラムを使って条件付き確率を見つけるチュートリアルに従っています。 import nltk from nltk.corpus import brown cfreq_brown_2gram = nltk.ConditionalFreqDist(nltk.bigrams(brown.words())) しかし、私はトリグラムを使って条

0熱

2答えて

Elasticsearc NGRAMフィルタは保存/私は私の文字列フィールドにNGRAMフィルタを適用しています

トークン元続けます。 "iq"や "a4"などの元のトークンが見つかりません。 ngramの前にいくつかの言語固有の分析を適用していますので、フィールド全体をコピーしないようにしたいと思います。私はngramsでトークンを拡張しようとしています。アイデアかngram-suggestionsはありますか？ここではcustom_ngramフィルタを使用し、私のアナライザの1の例である： "fren

2熱

1答えて

quantgramを使ってngram内のすべての単語を抹消する方法は？

私は現時点でRのQuantedaパッケージを使用しています。内容語が互いに近くにある傾向を素早く見積もるために、ステム付き単語のnグラムを計算したいと思います。私が試してみると： twitter.files <- textfile(files) twitter.docs <- corpus(twitter.files) twitter.semantic <- twitter.docs %>%

-1熱

1答えて

テキストを使用しているnグラムの頻度は、rを使用して

私はテキストを読むためにRを使用しています。それはリストに入れている通路は100文で構成され、その後、リストは次のようである： [[1]] [1] "WigWagCo: For #TBT here's a video of Travis McCollum (Co-Founder and COO of WigWag) at #SXSW2016 [[2]] [1] "chrisreedfi

1熱

1答えて

MLEを使ってnグラムモデルをトレーニングする方法は？

MLEを使ってnグラム・モデルを訓練することに関する多くの文書を学びましたが、すべての実装がnグラムを数えて条件付き確率を計算することに気づいたので、私の質問はMLEとの関係ですか？

0熱

2答えて

実装N-グラム、Quantedaエラー

私はRの私のコーパスにquantedaを実装しようとしていますが、私は取得しています：私はこれで多くの経験を持っていない Error in data.frame(texts = x, row.names = names(x), check.rows = TRUE, : duplicate row.names: character(0) 。ここでhttps://www.dropbox.

3熱

3答えて

R内のtext2vecで次の単語を予測する

私は、Rで言語モデルを構築して、前の単語に基づいて文中の次の単語を予測します。現在、私のモデルはKneser-Neyスムージングを使った単純なngramモデルです。それは、スムージングが低次ngramを補間する方法を提供するトレーニングセットにおいて最大確率（頻度）を有するngramを見つけることによって次の単語を予測する。これは高次ngramが低頻度であり、信頼できる予測を提供しない場合に有利で