n-gram

7熱

3答えて

私はスカラーのnグラムに基づいて解離したプレスアルゴリズムをコーディングしようとしています。大きなファイルのためにnグラムを生成する方法：たとえば、 "蜂はミツバチの蜂"を含むファイルのために。まず、ランダムなnグラムを選択する必要があります。たとえば、ハチ。次に、（n-1）ワードで始まるnグラムを探す必要があります。たとえば、の蜂。このnグラムの最後の単語を出力します。その後、繰り返し

8熱

5答えて

バイグラムやトリグラムに比べて、nグラム（n> 3）が重要なのはいつですか？

nグラム（n> 3）（およびその出現頻度）を計算する際の計算上のオーバーヘッドを考慮して、何が使用されているのか疑問に思っています。バイグラムやトリグラムだけでは十分ではないアプリケーションはありますか？もしそうなら、nグラム抽出の最先端技術は何ですか？助言がありますか？私は、次の点に注意しています： A new method of n-gram statistics for large num

12熱

4答えて

Java Lucene NGramTokenizer

私はトークン化文字列をngramにしようとしています。奇妙なことに、NGramTokenizerのドキュメントでは、トークン化された個々のngramを返すメソッドはありません。実際、私はStringオブジェクトを返すNGramTokenizerクラスの2つのメソッドしか見ることができません。トークン化されたngramsある Reader reader = new StringReader("Thi

2熱

2答えて

SQLクエリでn-gramテーブルを生成する

SQLデータベースに含まれる大量のデータベース（300アイテム程度）を検索するために、JavaScriptクライアント側でファジー検索を実装しようとしています。私の制約は、データベース上でライブ問合せを実行することができないことです。夜間のバッチ・ジョブでフラット・ファイルとして「索引」を生成する必要があります。だから、このようになりますデシベルで始まる： ID. NAME 1. The Ra

-2熱

3答えて

リスト内の文からバイグラムを生成する

私は、テスト段落から分割された文を含むリストを持っています。私はこの文のリストからバイグラムを生成しようとしています。しかし、私は取得しています： <itertools.izip object at 0x029E5080> 私のコードを： ..... print (words3) print (words4)

6熱

2答えて

Elasticsearch - EdgeNgram +ハイライト+ term_vector =悪いハイライト

iはedgengramとアナライザを使用して（分= 3、最大= 7、フロント）+ term_vector = with_positions_offsets 文書有するテキスト= "CouchDBの" と私は「couc」を検索すると私のハイライトは「couc」「COU」上ではなく私のハイライトは最低限のマッチングトークン「COU」ワットであると思われますhile私は正確なトークン（可能であれば

3熱

1答えて

nagrams in apache mahout

私はnaive bayesクラシファイアアルゴリズムをapache mahoutで実行しています。アルゴリズムのインスタンスをトレーニングして実行する際に、グラムサイズを設定するオプションがあります。 nグラムサイズを1から2に変更すると、結果の分類が大幅に変更されます。なぜこれが起こるのですか？どのようにnグラムのサイズは結果に劇的な変化を起こすのですか？

0熱

1答えて

Solr n-gram以外の提案

solr 3.5を使用していますが、問題が発生しました。私がしたいのは、file1の各行とfile2にリストされている参照を比較することです。しかし、file1では、データが正しく書き込まれるとは限りません。だから私は3から15までの文字で単語をカットするためにnGramを使うことにしました。問題は私が3で単語をカットしたときに参照が多すぎます。しかし :(15でカット、一致がない場合は、この

2熱

2答えて

再帰的なNグラムを使用してテキストを圧縮する

ただ1つの値が残るまで、再帰的な2-Gramストレージを使用して大きなグループのテキストを1つの整数に分割するという考え方に慣れてきました。 table pair { id first_parent_id (points to -> this.id) second_parent_id (points to -> this.id) } は、例えば、次のコードに私

0熱

1答えて

Solr ngramが数字と一致しませんか？私は、標準のSolrのngramフィールド定義を使用してい

- <fieldType name="ngram" class="solr.TextField" positionIncrementGap="100" stored="false" multiValued="true"> <analyzer type="index"> <tokenizer class="solr.StandardTokenizerFactory"/>