n-gram

    7

    3答えて

    私はスカラーのnグラムに基づいて解離したプレスアルゴリズムをコーディングしようとしています。 大きなファイルのためにnグラムを生成する方法: たとえば、 "蜂はミツバチの蜂"を含むファイルのために。 まず、ランダムなnグラムを選択する必要があります。たとえば、ハチ。 次に、(n-1)ワードで始まるnグラムを探す必要があります。たとえば、の蜂。 このnグラムの最後の単語を出力します。その後、繰り返し

    8

    5答えて

    nグラム(n> 3)(およびその出現頻度)を計算する際の計算上のオーバーヘッドを考慮して、何が使用されているのか疑問に思っています。バイグラムやトリグラムだけでは十分ではないアプリケーションはありますか? もしそうなら、nグラム抽出の最先端技術は何ですか?助言がありますか?私は、次の点に注意しています: A new method of n-gram statistics for large num

    12

    4答えて

    私はトークン化文字列をngramにしようとしています。奇妙なことに、NGramTokenizerのドキュメントでは、トークン化された個々のngramを返すメソッドはありません。実際、私はStringオブジェクトを返すNGramTokenizerクラスの2つのメソッドしか見ることができません。トークン化されたngramsある Reader reader = new StringReader("Thi

    2

    2答えて

    SQLデータベースに含まれる大量のデータベース(300アイテム程度)を検索するために、JavaScriptクライアント側でファジー検索を実装しようとしています。私の制約は、データベース上でライブ問合せを実行することができないことです。夜間のバッチ・ジョブでフラット・ファイルとして「索引」を生成する必要があります。だから、このようになりますデシベルで始まる: ID. NAME 1. The Ra

    -2

    3答えて

    私は、テスト段落から分割された文を含むリストを持っています。私はこの文のリストからバイグラムを生成しようとしています。しかし、私は取得しています: <itertools.izip object at 0x029E5080> 私のコードを: ..... print (words3) print (words4)

    6

    2答えて

    iはedgengramとアナライザを使用して(分= 3、最大= 7、フロント)+ term_vector = with_positions_offsets 文書有するテキスト= "CouchDBの" と私は 「couc」を検索すると 私のハイライトは「couc」 「COU」上ではなく私のハイライトは最低限のマッチングトークン「COU」ワットであると思われますhile私は正確なトークン(可能であれば

    3

    1答えて

    私はnaive bayesクラシファイアアルゴリズムをapache mahoutで実行しています。アルゴリズムのインスタンスをトレーニングして実行する際に、グラムサイズを設定するオプションがあります。 nグラムサイズを1から2に変更すると、結果の分類が大幅に変更されます。なぜこれが起こるのですか?どのようにnグラムのサイズは結果に劇的な変化を起こすのですか?

    0

    1答えて

    solr 3.5を使用していますが、問題が発生しました。 私がしたいのは、file1の各行とfile2にリストされている参照を比較することです。しかし、file1では、データが正しく書き込まれるとは限りません。だから私は3から15までの文字で単語をカットするためにnGramを使うことにしました。 問題は私が3で単語をカットしたときに参照が多すぎます。しかし :(15でカット、一致がない場合は、この

    2

    2答えて

    ただ1つの値が残るまで、再帰的な2-Gramストレージを使用して大きなグループのテキストを1つの整数に分割するという考え方に慣れてきました。 table pair { id first_parent_id (points to -> this.id) second_parent_id (points to -> this.id) } は、例えば、次のコードに私

    0

    1答えて

    - <fieldType name="ngram" class="solr.TextField" positionIncrementGap="100" stored="false" multiValued="true"> <analyzer type="index"> <tokenizer class="solr.StandardTokenizerFactory"/>