fuzzy-comparison

0熱

1答えて

私がする最初のリストで、各サイトに一致するようにしようとしている</p> <p>など、総額、私は少し異なるスペルで、場所の名前の二つのリストを持っている別のテーブル

から最も近い文字列一致で新しいテーブルの列を作成します。 2番目のリストに最も類似しています。 SELECT name1, name2 FROM table1, table2 WHERE levenshtein(name1, name2) < 3 正しい行に沿っていますが、いくつかの誤検出があります。最小のレーベンシュタイン距離でレコードを選択することができれば、それらのほとんどは避

3熱

1答えて

fuzzyjoin :: difference_ *でファジー結合を実行する方法R

私はしきい値に基づいてマージしたい2つの異なるデータセットを扱っています。 2つのデータフレームは次のようになりましょう：私は今、希望は何 library(dplyr) library(fuzzyjoin) library(lubridate) df1 = data_frame(Item=1:5, DateTime=c("2015-01-01 11:12:14", "201

1熱

1答えて

juliaでのファジー正規表現の一致

Juliaでファジー正規表現マッチングを行う方法はありますか？私はこのテストを行うが、マッチングでは、いくつかの緯度を可能にし、レーベンシュタイン距離で、これを指定することができるようにしたいと思い toMatch = Regex(word,"i") ismatch(toMatch,input_string) ：私は、次の正規表現のテストを構築しました。距離を計算できるLevenshte

1熱

1答えて

多数のレコード間のファジーマッチ

私は2つのデータフレームを持っています。 1つに33765社が含まれています。もう1つは358839社です。私はファジーマッチを使って2つのマッチングを見つけたい。レコード数が多すぎるため、会社名の1文字目に基づいて両方のデータフレームのレコードを細分化しようとしています。例：文字「A」で始まるすべての企業では、1番目のデータフレームには2600レコード、2番目には25000レコードがあります。

1熱

1答えて

Pythonで配列の列に項目をあいまいにする方法はありますか？

私は、NCAAのチーム名の配列とそれらに関連する統計を持っています。学校名はしばしば短縮されるか、完全に除外されますが、アラバマクリムゾンタイドとクリムゾンタイドのように、名前のすべてのバリエーションに共通の要素が通常あります。これらの名前はすべて、特定の順序で配列に含まれています。私はそれらをあいまいにマッチングさせてチーム名のすべてのバリエーションを取って、すべてのバリエーションを1つの名前に

0熱

2答えて

SAS Help：インデックス関数を使用して2つのカラムを比較する

インデックス関数を使用して、AとBの文字列値を比較したいとします。私はAにその列にBが含まれているかどうか確認したい。私はそれを行う方法を知っている唯一の方法はインデックスですが、インデックスはそのパラメータに列名を許可しないという問題があります。文字列値を入力する必要があります。試してみました：index(Address, HouseNumber)>0しかし、動作しません。例： Addres

1熱

1答えて

ファジーマッチアルゴリズムを使用してデータ要素を比較する最良の方法

レコードリンクのファジーマッチアルゴリズムを使用して2つのデータ要素またはフィールドを比較することを検討していますが、それぞれの比較に最適なアルゴリズムを決定したいと考えています。私は比較することで探していますフィールドは、次のとおりです。姓姓性別出生年誕生月誕生日 SSN 会員番号 MRN ストリートナンバーストリート名ストリートタイプストリート方向性市州ジップ電話

0熱

1答えて

異なる次元の2つのベクトルをループするR

私は異なる次元の2つの文字ベクトルa、bを持っています。私は各要素をaにとり、bのすべての要素と比較して、近くに一致する要素があるかどうかを調べる必要があります。一致のために私はagrepl関数を使用しています。サンプルデータが a <- c("US","Canada","United States","United States of America") b <- c("United Stat

0熱

1答えて

Apacheのスパーク：参加RDDS（データセット）

ことが可能にいくつかの「カスタム条件」を使用して（複数のフィールド上の）2つの(Pair)RDD S（またはDataset S/DataFrame秒）に参加することです/ファジー・マッチングを一致/ファジーカスタム条件を使用して、例えば数字または日付のための範囲/間隔、および様々な「距離法」。 Levenshtein、ストリングス？ PairRDDを取得するRDD内の「グループ化」のために、一つ

0熱

2答えて

SAS proc sqlを使用してファジー・マージ

私は名前で一致させたい2つのファイルがあり、圧縮機能を使用してスペル・エラーを考慮したいと考えています。名前は完全に消去されており、検索スペースを減らすために使用できる他の有用な一致変数はありません。ファイルname1とname2にはそれぞれ500Kを超える行があるため、11時間後にこのコードは実行されません。これをより効率的にコーディングする方法はありますか、それとも純粋にコンピューティング