fuzzy-comparison

    0

    1答えて

    から最も近い文字列一致で新しいテーブルの列を作成します。 2番目のリストに最も類似しています。 SELECT name1, name2 FROM table1, table2 WHERE levenshtein(name1, name2) < 3 正しい行に沿っていますが、いくつかの誤検出があります。最小のレーベンシュタイン距離でレコードを選択することができれば、それらのほとんどは避

    3

    1答えて

    私はしきい値に基づいてマージしたい2つの異なるデータセットを扱っています。 2つのデータフレームは次のようになりましょう:私は今、希望は何 library(dplyr) library(fuzzyjoin) library(lubridate) df1 = data_frame(Item=1:5, DateTime=c("2015-01-01 11:12:14", "201

    1

    1答えて

    Juliaでファジー正規表現マッチングを行う方法はありますか?私はこのテストを行うが、マッチングでは、いくつかの緯度を可能にし、レーベンシュタイン距離で、これを指定することができるようにしたいと思い toMatch = Regex(word,"i") ismatch(toMatch,input_string) : 私は、次の正規表現のテストを構築しました。 距離を計算できるLevenshte

    1

    1答えて

    私は2つのデータフレームを持っています。 1つに33765社が含まれています。もう1つは358839社です。私はファジーマッチを使って2つのマッチングを見つけたい。レコード数が多すぎるため、会社名の1文字目に基づいて両方のデータフレームのレコードを細分化しようとしています。 例:文字「A」で始まるすべての企業では、1番目のデータフレームには2600レコード、2番目には25000レコードがあります。

    1

    1答えて

    私は、NCAAのチーム名の配列とそれらに関連する統計を持っています。学校名はしばしば短縮されるか、完全に除外されますが、アラバマクリムゾンタイドとクリムゾンタイドのように、名前のすべてのバリエーションに共通の要素が通常あります。これらの名前はすべて、特定の順序で配列に含まれています。私はそれらをあいまいにマッチングさせてチーム名のすべてのバリエーションを取って、すべてのバリエーションを1つの名前に

    0

    2答えて

    インデックス関数を使用して、AとBの文字列値を比較したいとします。私はAにその列にBが含まれているかどうか確認したい。私はそれを行う方法を知っている唯一の方法はインデックスですが、インデックスはそのパラメータに列名を許可しないという問題があります。文字列値を入力する必要があります。 試してみました:index(Address, HouseNumber)>0しかし、動作しません。 例: Addres

    1

    1答えて

    レコードリンクのファジーマッチアルゴリズムを使用して2つのデータ要素またはフィールドを比較することを検討していますが、それぞれの比較に最適なアルゴリズムを決定したいと考えています。私は比較することで探しています フィールドは、次のとおりです。 姓 姓 性別 出生年 誕生月 誕生日 SSN 会員番号 MRN ストリートナンバー ストリート名 ストリートタイプ ストリート方向性 市 州 ジップ 電話

    0

    1答えて

    私は異なる次元の2つの文字ベクトルa、bを持っています。私は各要素をaにとり、bのすべての要素と比較して、近くに一致する要素があるかどうかを調べる必要があります。一致のために私はagrepl関数を使用しています。サンプルデータが a <- c("US","Canada","United States","United States of America") b <- c("United Stat

    0

    1答えて

    ことが可能にいくつかの「カスタム条件」を使用して(複数のフィールド上の)2つの(Pair)RDD S(またはDataset S/DataFrame秒)に参加することです/ファジー・マッチングを一致/ファジーカスタム条件を使用して、例えば数字または日付のための範囲/間隔、および様々な「距離法」。 Levenshtein、ストリングス? PairRDDを取得するRDD内の「グループ化」のために 、一つ

    0

    2答えて

    私は名前で一致させたい2つのファイルがあり、圧縮機能を使用してスペル・エラーを考慮したいと考えています。名前は完全に消去されており、検索スペースを減らすために使用できる他の有用な一致変数はありません。 ファイルname1とname2にはそれぞれ500Kを超える行があるため、11時間後にこのコードは実行されません。 これをより効率的にコーディングする方法はありますか、それとも純粋にコンピューティング