fuzzy-comparison

    0

    1答えて

    これは、計算言語学/ファジーストリングマッチングについて尋ねるのは2回目ですが、今度はステミングの問題ではありません。 私の最初の問題は、ファジーストリングマッチングを使用してデータベースを重複排除することでした。今、文字列が別の文字列の省略形であるかどうかを検出する必要があります。たとえば: JOHN ADRIAN FREEMANウェルターは、Microsoft Office JAFウェルターや

    8

    4答えて

    人のテーブル(名前、姓、住所、SSNなど)があるとしましょう。 特定の人物Aと「非常によく似ている」すべての行を検索したいとします。 AとテーブルPeopleからのすべての行の何らかのファジー論理比較を実装したいと思います。いくつかの列に別々に働くファジー推論ルールがいくつかあります(たとえば、名前の3つのファジールール、姓のルール2つ、住所のルール5つ) 質問はどちらですか? このアプローチ 実

    1

    2答えて

    入力した単語に最も類似する単語を含む表から最も適切な行を見つける方法を探したいと思います。何か案が? (私はOCRを使用していますが、まったく同じ単語ではなく、「spccific」という単語が「特定」であることがあります)

    0

    2答えて

    のExcelワークシートの列見出しの解析私はこのようになりますExcelスプレッドシートを持っています。渡す文字列が正確な列の見出しと一致しない可能性があることに注意してください。 私はxlrdを使用していますが、このような何かをしています: setOfheadings = set(['ABC', 'JKL']) found_header = False for i in range(1,sh

    1

    1答えて

    一部の画像で光学式文字認識を実行した後、おおよその文字が表示されます。しばしば認識はあまり良くありません。たとえば、実際のテキスト「DATE」は「DHTE」または「0HTE」となります。基本的に私は、各行のデータを識別して抽出する必要があるので、完全に認識する必要はなく、日付行を特定するだけで十分です。私はLevenshtein編集距離を計算しようとしましたが、残念ながらこれはDATEとTIMEの

    5

    3答えて

    2つの文字列を類似しているかどうかに基づいて分類します。例 s1 = "Token is invalid. DeviceId = deviceId: "345" " s2 = "Token is invalid. DeviceId = deviceId: "123" " s3 = "Could not send Message." のために私は2弦の間に、彼らはないの類似している場合、私は

    4

    2答えて

    私は会社名のリストを持っています。私はurlの会社名のリストを持っています。 最終目標は、URLの中に見て、私のリストにあるどのように多くのURLの企業を見つけることです。 例URL:http://www.dmx.com/about/our-clients 各URLは別々に構成することになるので、私は正規表現検索を行うには良い方法があり、各会社名の個々の文字列を作成しないでください。 私は、URL

    2

    1答えて

    データベース内のテキストと一致するようにする必要があります。 この例は次のとおりです。アキュラMDXテクノロジーパッケージ データベース化アイテム:エンターテインメントPKGとナビゲーション テックPKGと テックPKG テクノロジーPKG ベース FWD テキストを考える テクノロジーパッケージ/ 18インチホイールFWD これは100%パーフェクt、ちょうど最高の推測。特に注意を払う必要のある

    4

    2答えて

    私は、Railsでファジー比較のためのいくつかの良いオプションを探していました。 基本的に、データベースの一部の文字列と比較したい文字列があります。該当する場合は、最も近い文字列を取得したいと考えています。この特定のケースでは、私は順序の誤りや誤字の検出にはあまり興味がありませんが、無関係な単語(余分な情報、句読点、などの単語)を無視して、ベストマッチ。これらの文字列は、通常2〜7語の長さの間にあ

    7

    1答えて

    私はDouble MetaphoneとCaverphone2で文字列の比較を行ってきました。名前、住所などのようなものでうまくいきます(Caverphone2は私にとって最適です)。しかし、電話番号、IPアドレス、クレジットカード番号などの数値になると、あまりにも多くの誤検出が発生します。 したがって、LuhnとVerhoeffのアルゴリズムを見てきました。私はほしいが、それほどではない。彼らは検