n-gram

    12

    1答えて

    私の質問を文脈に入れて、いくつかの(神経)言語モデルを訓練し、テスト/比較したいと思います。データ準備ではなくモデルに焦点を当てるために、私はnltkのBrownコーパスを使用し、nltkで提供されたNgramsモデルをベースラインとして訓練することを選択しました。 私の最初の質問は、疑いのあるnltkのNgramモデルの動作に関するものです。 コードは、私がそれをここに貼り付け短めですので:NG

    0

    1答えて

    データマイニングとNLPテクニックを使用してASRシステムの出力にエラーの修正を行っています。そのためには、n-gram辞書が必要です。私はwikipedia ngramから始まり、小さなテストセットでは奨励的な結果(75%の検​​出率)を示しています。しかし、大規模なデータセットで私のソリューションをテストすると、ウィキペディアngramがすべての英語の単語をカバーするのに十分ではないため、検出

    3

    1答えて

    mongoDB(バージョン3.2.4)にGoogle Ngramsからアークを供給しようとしていますが、まともな設定でも時間がかかりすぎています(MBP Mid 2014 、2.2 GHz Intel Core i7、16 GB) 元のファイルの8,900,000行ごとに、docとbulk.insert(doc);を順不同の一括で作成します。 500個を挿入した後、bulk.execute()を実

    0

    1答えて

    私は値のリストである多くのフィールドを含む文書を持っています。私はデータの重複(等Completion Suggestors)ことなく、1つの特定の文書に一度に一つの特定のそのようなフィールドの自動補完できるようにしたい 例えば、私は、3つの文字の後にオートコンプリートできるようにしたいと思い文書のcategoryフィールドの値はid: '7'です。 thisに基づいて何かを実装しようとしましたが

    9

    1答えて

    A Markov chainは、ある確率で他の状態に遷移することができる一連の状態で構成されています。 各状態のノードを作成し、各遷移の関係を作成し、遷移関係に適切な確率で注釈を付けることで、マルコフチェーンをNeo4Jで簡単に表現できます。 あなたはをシミュレートできますか? Neo4Jを使用してマルコフチェーンをシミュレートしますか?たとえば、ある状態でNeo4Jを強制的に開始し、確率に基づい

    5

    1答えて

    Im新しいpythonには助けが必要です! 私はPythonのNLTKテキスト分類で練習していました。ここ が、私はこの1つ from nltk import bigrams from nltk.probability import ELEProbDist, FreqDist from nltk import NaiveBayesClassifier from collections imp

    0

    1答えて

    私はnltkとpythonを初めて使用しています。私は評価機能を使用して、私が読んだテキスト文書の精度をテストしようとしていました。これは私がこれまで持っていたものです。 これを使用して正確さを計算することができません。次のエラーが表示されます。 ValueError:アンパックするには1つ以上の値が必要です。 これを修正する方法がわかりません。ありがとう。 NLTKを使用してUnigramTag

    6

    2答えて

    中/低速ランタイム、目標はである: が 辞書式順序で指定された文字列のすべての異なるサブストリングを配置し、それらを連結します。連結された文字列の のK番目の文字を表示します。与えられたKの値は であり、すなわちK番目の文字が有効であることが保証される。 Input Format: 最初の行は、テストケースの数T即ち番号を含むことになります。各テストケースは、文字 (-z)を含む文字列が含まれ、第

    5

    2答えて

    私は、Python NLTKがどのようにしてバイグラムの単語を計算しやすくするかについて、ウェブ上にたくさんのドキュメンテーションを見ました。 文字はどうですか? 私がしたいことは、辞書を差し込み、異なる文字のペアの相対頻度を教えてもらいたいことです。 最終的には、見込みのある(しかし偽の)単語を生成するためのマルコフプロセスをいくつか作りたいと思います。ここで

    15

    3答えて

    私は次のコードを持っています。私はapply_freq_filter機能を使用して、頻度カウントよりも小さいコロケーションを除外できることを知っています。しかし、フィルタリングのためにどの周波数を設定するかを決める前に、ドキュメント内のすべてのn-gramタプル(私の場合はバイグラム)の頻度を取得する方法はわかりません。ご覧のとおり、nltkコロケーションクラスを使用しています。 import n