fuzzy-search

    8

    1答えて

    OCRで認識された文字列に一致する文字列を見つけ出し、間違った、紛失した、余分な文字。結果は、マッチした部分文字列の長さをもった可能性があります(必ずしも必要ではありません)。例えば : String: 9912, 1.What is your name? Substring: 1. What is your name? Tolerance: 1 Result: match on chara

    0

    2答えて

    データベーステーブルには約1000件のレコードがあります。記事のタイトルを格納するために使用されるtitleという列があります。レコードを挿入する前に、そのテーブルに似たタイトルの記事がすでに存在するかどうかを確認する必要があります。もしそうなら、私はスキップします。 この種のファジーマッチングを実行する最も速い方法は何ですか?文中のすべての単語が英語の辞​​書にあると仮定します。文#1の中の単語

    0

    2答えて

    これは可能ですか?私はデータベースに直接アクセスすることはできません - データオブジェクトを通してのみ。 アイテムがArrayListのようなもので返された場合、インデックスを検索できますか? これができない場合は、Lucene(または他のツール)を使用して、Javaを使用してオブジェクトに対してファジーマッチングを実行する方法がありますか? たとえば、FirstNameとLastNameを持つ

    2

    3答えて

    私は約500万レコードのPostgresテーブルを持っており、入力キーに最も近いものを探したいと思っています。私はpg_trgmモジュールでトリグラムを使ってみましたが、クエリあたり約5秒かかってしまいました。これは私のニーズにとっては遅すぎます。 Postgresでファジーマッチを行う方法はありますか?

    1

    1答えて

    私は、提案と報酬システムのためのシェアポイントポータルを開発しており、重複した提案を警告する必要があります。提案はフリーテキスト形式になるため、ファジー検索が必要です。私は "Damerau-Levenshteinアルゴリズム"はファジィ検索を行うことを理解していますが、Sharepointポータルでどのように実装しますか? Microsoft Search Serverは役に立ちますか?はいの場

    4

    4答えて

    Zend Luceneを使用してPHP Webサイトの検索機能を構築していますが、問題があります。 私のウェブサイトはショップディレクターです(そのようなものです)。 たとえば、「FooBar」という名前のショップがありますが、私の訪問者は「Foo Bar」を検索してゼロの結果を得ています。また、店舗名が「Foo Bar」で、訪問者が「FooBar」を検索する場合、何も見つかりません。 は、私が「

    3

    1答えて

    私はおおよその文字列一致のフィールドを初めて使用しています。 私はBitap algorithmの用途を模索していますが、これまでのパターンの長さには問題があります。私はFlashで作業していますが、32ビットの符号なし整数とIEEE-754倍精度浮動小数点数型を処分しています。整数型の場合、最大53ビットを割り当てることができます。それでも、私はむしろ50文字よりも長いパターンを扱うことができる

    6

    6答えて

    私は製品名にカタログ番号のマッピングを持っている: 35 cozy comforter 35 warm blanket 67 pillow とは「暖かいcmfrter」のようなスペルミス、混合の名前を見つけるだろう、検索を必要としています。 edit-distance(difflib)を使用したコードがありますが、18000の名前に拡張されない可能性があります。 私はLuceneと似たよう

    14

    9答えて

    軽量ファジーテキスト検索ライブラリを提案できますか? 私がしたいことは、ユーザーがタイプミスのある検索語の正しいデータを見つけることができるようにすることです。 私はLuceneのような全文検索エンジンを使うことができましたが、残念だと思います。 編集: ここで問題がより明確にするためには、そのライブラリのための主なシナリオです: 私は、文字列の大規模なリストを持っています。私はこのリスト(MSV

    4

    1答えて

    私は文字列入力を受け、Google APIを使ってランク付けされた書籍リストを返すAndroidアプリを開発しています。 私は、入力した内容が1つの本である可能性が高いかどうかを確認するために、ユーザーが入力するオープンエンドの文字列をリストの最初の項目と比較する方法を探しています。私は本、タイトル、著者、説明などの情報がたくさんあるので、どこでも検索できます。 例は次のとおりです。 'eyr