trigram

    0

    2答えて

    私は、後でトリグラムのために使用される埋め込みの3つの層を持つデフォルトのdictを持っています。 counts = defaultdict(lambda:defaultdict(lambda:defaultdict(lambda:0))) その後、私は文書を通過し、それぞれの文字の数(およびbicountsとtricounts)を作成するループを持って counts[letter1][let

    -1

    1答えて

    私は小さなデータセット(〜1000行)を持っています。各行には、ユーザー名、名、姓があります。 pg_trgmを使用してこれらの3つのフィールドでファジー検索を行い、3つのフィールドをそれぞれの間に2つのスペースを連結して連結できますか?あるいは、トリグラムやその他の方法を使用して、この一連のユーザーを検索するより良い方法がありますか?

    0

    1答えて

    POSタグャーに関する最も動的なコーパスはツリーバンクコーパスです。しかし、Brown Corpus JustはHMMとTnT taggerの両方で結果を出すことを拒否しています。それについての説明は? size = int(len(brown.tagged_sents())*0.9) train = brown.tagged_sents()[:size] test = brown.tagge

    0

    1答えて

    と複数の列の類似度比較trigram類似度演算子%を使用してPostgreSQLでファジーマッチフィルタリング(WHERE句で)を実行する必要があります。 フィールドペアを比較する場合は、単純にtable1.field1 % table2.field2で、GINまたはGISTインデックスを使用してパフォーマンスを大幅に向上させることができます。 しかし、私はすぐにフィールドの束を比較する必要があり

    0

    1答えて

    私のアプリケーションで検索機能が必要です。 私はそれを達成するためにトライグラムを使用しましたが、うまくいきました。 問題は次のとおりです。 トライグラムは、単語の3文字グループのシーケンスを作成しています。 私は単一のオブジェクトで3つ以上の文字が必要です。例については : select show_trgm('abcpqrs'); これが返されます:{" a"," ab","abc","bc

    1

    2答えて

    MacでPostgreSQL 9.6.2をテストし、Ngramsで試してみてください。 wineryフィールドにGIN trigramインデックスがあるとします。 類似性(私はこれが推奨されていません知っている)の制限:私は2,3M行テーブル上のトライグラム検索を構築しています SELECT set_limit(0.5); 。 マイセレクトコード: SELECT winery, similar