levenshtein-distance

0熱

1答えて

配列から最も近い一致を見つけようとしています。このため私はlevenshtein()を使用しますが、levenshtein()は最初に一致した文字列または最初に最も近いものだけを返します。ここでは私のシナリオです： $words = array('Break Noise','Engine Noise','Vehicle is jerking'); 私の入力がNoiseであれば、私はBreak

0熱

1答えて

Python/Pandas - 文字列の比較

私は文字列のリストを持っています/私は比較する必要があり、各文字列の間の距離の測定値を取得する。私が書いた現在のコードは動作しますが、大きなリストの場合は2 forループを使用してから時間がかかります。私は文字列間の距離を測定するためにlevenshtien距離を使用しました。文字列/説明のリストは、データフレームに格納されます。 def edit_distance(s1, s2):

1熱

1答えて

RecordLinkage - R 1つのベクトル。私は名前のいずれかのベクトルを持っている場合は、自己

に一致していない、と言う： a = c("tom", "tommy", "alex", "tom", "alexis", "Alex", "jenny", "Al", "michell") は、私は、このベクター内の類似性スコアを取得するために使用levenshteinSimまたは類似を取得したいです。しかし、私は自己スコアにしたくありません。たとえば、"tom" #1は"tom" #3とスコ

3熱

1答えて

Levenshteinを計算するR

のQWERTYエラーを許容するユーザ入力の企業名とFortune 1000のリストとの間のRのLevenshtein距離を計算したいが、QWERTYの誤植がある。たとえば、Mcdimldesは、McDonaldsから2の距離を持つ必要があります。iがoの次にあり、mがnの次にあるからです。実装でこの別の試みがあったが、Python (click here).すべての助けに感謝します。問題を明確

1熱

1答えて

単一のスワップを可能にする2つの文字列の一致

2つの文字列がLevenshteinメトリックによって1つの違いを持つことを可能にするファジー一致アルゴリズムを実行しています。 >ジョー onalprofes よりSI - - > profes が onal あるジョーよりNA：しかし、2つの後件文字が交換され頻繁に誤植がありますであるが、これらの差異はLevenshteinによって2を与える。どのようにこれらの差異にも一致しますか？

6熱

3答えて

大きな文字列の中で最適なサブシーケンスを見つけるにはどうすればよいですか？

私は大きな文字列とサブストリングの配列を持っています。例えば（文字列の間の微妙な違いに注意してください）： large_str = "hello, this is a long string, that may be made up of multiple substrings that approximately match the original string" sub_strs =

1熱

1答えて

Levenshtein /任意の配列の距離を編集

任意の2つの配列間のLevenshtein距離を計算したいと思います。 a <- 1:100 b <- c(1, 1:100) edit_distance(a, b) == 1 私はadist機能とstringdistパッケージの承知していますが、彼らは唯一の文字ベクトルに働きます。シーケンス内のシンボルの数が少ない場合、それらを文字としてエンコードし、上記の関数を使用することができます

0熱

1答えて

firebaseは、levenshteinの順序付けと単語単位のファジー検索を提供します。

検索は、現在のアプリケーションの中で最も重要な部分の1つです。迅速で正確なグローバル検索のように感じる必要があります。このアプリはFirebaseをベースにしており、FirebaseのequalTo（）/ startAt（）の組み合わせがこの面ではかなり欠けていることがわかります。（そうOO pimeは結果の上に得られるはず）単語単位で一致させるには関連性順結果：私が達成したい何複数のプロ