私は継承した汚れたデータベースを整理しており、人間の見直しのために名前を「曖昧にする」必要があります。私は動作する解決策を思いついたが、それはひどく遅い - 15k行で7分。私は本当にシンプルな解決策を見落としていると感じています。 例レコード: 1 John Smith
2 John Q Smith
3 Janway Smith
4 Jane Chen
5 David Jones
6
BK Trees (Burkhard-Keller Trees)はファジー文字列検索(スペルチェック、単語推奨など)に関連付けられています。そして、すべてのBK木探索アルゴリズムはexplained hereと同じです。目的は、たとえば"seek" and "peek" if I search for "aeek"のように戻ります。 は今、私の質問は、私はため与え辞書からすべて関連商品を検索するに
私は2つのcsvを持っていますが、1列の値で行を照合することができます(この列を微調整した後)。マッチングの後、私はそれらの両方からいくつかの値を取って新しい組み合わせの行を作りたいと思う。私はそれらの両方のためcsv.DictReaderを使用して簡単なスクリプトを考え、次にダブル for row1 in csv1:
for row2 in csv2:
if row1['someID