n-gram

0熱

1答えて

.jcallのエラー（ "RWekaInterfaces"、 "[S"、 "tokenize"、.jcast（tokenizer、N-gramの場合はnull例外：

N-gramを実行しようとしています。しかし、突然このデータセットは機能しません。

0熱

1答えて

以下のコードは、ユニークなGoogleブックのピクルス辞書を生成します。 a、b、c、...、zで始まる単語の辞書のような26の辞書を生成します。私は数字で始まる単語の辞書だけを持って、それを変更したい {'word':[total_match_count, total_volume_count]}よう p = re.compile(r'^[a-z]*$', re.IGNORECASE) el

0熱

1答えて

4グラムモデルのKeras単語埋め込み

私はcourseraニューラルネットワーククラスに従っています。私は、オクターブの代わりにpython + kerasを使って割り当てを渡そうとしています。私は前の3つを与えられた4番目の単語を予測したいと思います。私の入力文書は合計250のユニークワードです。モデルには、各単語を50-dベクトル空間にマップする埋め込みレイヤー、シグモイド活性化関数を持つ200個のニューロンを持つ隠れレイヤー

0熱

1答えて

オートエンコーダとニューラルネットワークパラメータ数の面でオーバーフィッティング？

私は1100の2つのクラスのシーケンスを持っています。そのうち400は、class 1および700から、class 2である。私は2ニューロンの隠れたレイヤーの自動エンコーダーを使用して自分の機能をキャプチャしました。私の初期の特徴は各シーケンスのトリグラムです。ですから、各シーケンスに対して私は6860トリグラムを持っています。その結果、私の入力ベクトルのほとんどはまばらなベクトルです。私は、こ

1熱

1答えて

Ngram Tokenizer on field、問い合わせではありません

ここでは、ユースケースの解決策を見つけるのが難しいです。基本的には、それはかなりシンプルです：SQL like '%...%'のような "contains"クエリを実行する必要があります。正規表現のクエリがありましたが、実際には完全に動作するようになっていましたが、ひどく規模が拡大しているように見えますが、私はnGramを試しています。さて、私は前に彼らと一緒に遊んできたし、 "彼らはどのよう

0熱

1答えて

ngramsのデータ構造

Javascriptでngramモデルの実装を構築しました。これはうまくいきます。しかし、私は自分のデータ構造を変更して、新しい単語/文字が観察されるたびにすべての履歴を繰り返す必要がないようにしたいと考えています。ここで、私は、各観察されたパターンの記録を保持するデータ構造を持って探していますseedtextを取り、順番2 var ngrams = {}; var order =

1熱

1答えて

単純なバイナリテキスト分類

私は、定義された概念空間（ここではlearning as it relates to work）に関連して、800k +学術論文を関連性（1）または無関係性（0）として分類する最も効果的かつ簡単な方法を模索します。データである：タイトル&アブストラクト及び/又は封入のためのいくつかのしきい値を生じさせる機能を確立することによって、教師付き機械学習を含む、任意の手法を用い、あるいは組み合わせてもよ

0熱

1答えて

複数のngramを同じ分類子で使用できますか？

NLPを初めて使用していて、非常に簡単な質問がありますが、多くの質問がありますが、正直なところどこにも見つかりませんでした：複数のタイプのngramを同じ分類子（例：unigrams + bigrams）で使用できますか？私はこれをやってみましたが、Naive Bayesの場合、少なくともbigramsよりも高い精度を示していますが（unigramsよりも低いですが）、正当な練習であるかどうかは

1熱

1答えて

検索パターンの最小文字数以上でngramを使用してテキスト内を検索する

私のエラスティックサーバにテキストのインデックスがあります。は、私はこのようなnグラムのトークナイザを実装している： "analysis": { "analyzer": { "ngram_analyzer": { "type": "custom", "tokenizer": "ngram_tokenizer" } },

0熱

1答えて

arffファイルのn-gram機能を表現するには？

私はネット上でこの問題を調査してきましたが、解決策を見つけることができませんでした。問題があることです：Javaで私が最初に使用ウェカのAPIは、私が例示できるそのうちの一つのn-gramの特徴を抽出するために、問題はここから始まり "not good" です：arffファイルのヘッダーは次のようなものになるだろうこの： @relation words @attribute {0,1}