n-gram

12熱

1答えて

私の質問を文脈に入れて、いくつかの（神経）言語モデルを訓練し、テスト/比較したいと思います。データ準備ではなくモデルに焦点を当てるために、私はnltkのBrownコーパスを使用し、nltkで提供されたNgramsモデルをベースラインとして訓練することを選択しました。私の最初の質問は、疑いのあるnltkのNgramモデルの動作に関するものです。コードは、私がそれをここに貼り付け短めですので：NG

0熱

1答えて

無料のngramデータセットのLoking

データマイニングとNLPテクニックを使用してASRシステムの出力にエラーの修正を行っています。そのためには、n-gram辞書が必要です。私はwikipedia ngramから始まり、小さなテストセットでは奨励的な結果（75％の検出率）を示しています。しかし、大規模なデータセットで私のソリューションをテストすると、ウィキペディアngramがすべての英語の単語をカバーするのに十分ではないため、検出

3熱

1答えて

MongoDB bulk.execute（）は、順不同で挿入するには時間がかかります

mongoDB（バージョン3.2.4）にGoogle Ngramsからアークを供給しようとしていますが、まともな設定でも時間がかかりすぎています（MBP Mid 2014 、2.2 GHz Intel Core i7、16 GB）元のファイルの8,900,000行ごとに、docとbulk.insert(doc);を順不同の一括で作成します。 500個を挿入した後、bulk.execute()を実

0熱

1答えて

特定の文書の特定のフィールドのElasticsearch Autocomplete

私は値のリストである多くのフィールドを含む文書を持っています。私はデータの重複（等Completion Suggestors）ことなく、1つの特定の文書に一度に一つの特定のそのようなフィールドの自動補完できるようにしたい例えば、私は、3つの文字の後にオートコンプリートできるようにしたいと思い文書のcategoryフィールドの値はid: '7'です。 thisに基づいて何かを実装しようとしましたが

9熱

1答えて

Neo4Jでマルコフ連鎖をシミュレートする

A Markov chainは、ある確率で他の状態に遷移することができる一連の状態で構成されています。各状態のノードを作成し、各遷移の関係を作成し、遷移関係に適切な確率で注釈を付けることで、マルコフチェーンをNeo4Jで簡単に表現できます。あなたはをシミュレートできますか？ Neo4Jを使用してマルコフチェーンをシミュレートしますか？たとえば、ある状態でNeo4Jを強制的に開始し、確率に基づい

5熱

1答えて

n-gramとNaive Bayesクラシファイア

Im新しいpythonには助けが必要です！私はPythonのNLTKテキスト分類で練習していました。ここが、私はこの1つ from nltk import bigrams from nltk.probability import ELEProbDist, FreqDist from nltk import NaiveBayesClassifier from collections imp

0熱

1答えて

nltkタグ付きドキュメントの評価機能を使用

私はnltkとpythonを初めて使用しています。私は評価機能を使用して、私が読んだテキスト文書の精度をテストしようとしていました。これは私がこれまで持っていたものです。これを使用して正確さを計算することができません。次のエラーが表示されます。 ValueError：アンパックするには1つ以上の値が必要です。これを修正する方法がわかりません。ありがとう。 NLTKを使用してUnigramTag

6熱

2答えて

克服MemoryError <a href="https://www.hackerrank.com/challenges/ashton-and-string" rel="nofollow">Ashton String task</a>でアシュトンストリングタスク

中/低速ランタイム、目標はである：が辞書式順序で指定された文字列のすべての異なるサブストリングを配置し、それらを連結します。連結された文字列ののK番目の文字を表示します。与えられたKの値はであり、すなわちK番目の文字が有効であることが保証される。 Input Format：最初の行は、テストケースの数T即ち番号を含むことになります。各テストケースは、文字（-z）を含む文字列が含まれ、第

5熱

2答えて

NLTKでは、バイグラムの単語を簡単に計算できます。手紙はどうですか？

私は、Python NLTKがどのようにしてバイグラムの単語を計算しやすくするかについて、ウェブ上にたくさんのドキュメンテーションを見ました。文字はどうですか？私がしたいことは、辞書を差し込み、異なる文字のペアの相対頻度を教えてもらいたいことです。最終的には、見込みのある（しかし偽の）単語を生成するためのマルコフプロセスをいくつか作りたいと思います。ここで

15熱

3答えて

Python nltkのn-gram頻度を数えて

私は次のコードを持っています。私はapply_freq_filter機能を使用して、頻度カウントよりも小さいコロケーションを除外できることを知っています。しかし、フィルタリングのためにどの周波数を設定するかを決める前に、ドキュメント内のすべてのn-gramタプル（私の場合はバイグラム）の頻度を取得する方法はわかりません。ご覧のとおり、nltkコロケーションクラスを使用しています。 import n