levenshtein-distance

0熱

1答えて

与えられたコーパスの単語の正体類似度（編集距離）を計算する必要があります。これを計算することができるように思われるvwr Rパッケージ：レーベンシュタイン距離は、2つの単語リストの一致する単語間のペアワイズ計算される coltheart.N(list1, list2) ました。ある単語リストのすべての可能な単語の組み合わせの間にレーベンシュタイン距離を計算する方法があるのだろうかと思っていま

1熱

2答えて

配列内のアイテムを避ける方法を別のクラスタで繰り返すか？

私は約58000の一意の文字列（partName）を持つ配列を持っています。 parts = [ { _id: 59a942a8c0b7467bf08711df, partName: '0' }, { _id: 59a94299c0b7467bf084a917, partName: '9129' }, { _id: 59a94299c0b7467bf084a918, partName: '9

1熱

1答えて

文字列を正規表現に一致するように変換する編集操作の最小数

いくつかの文字列を正規表現に一致させるために、最小限の操作数（挿入、削除、置換）を計算する方法はありますか？例えば、正規表現(ab)+と一致する文字列babaに変換する操作の最小数は2である：それはどちらかababab（+2文字）またはab（-2文字）に変えることが必要です。

0熱

1答えて

Python - Levenshtein距離に基づいてList AからList Bに最も近い文字列を割り当てます（理想的にはパンダを使用）

はじめに、私はPythonにはかなり新しく、主にデータ解析にパンダを使用する方法を知っています。私は現在、100の以上のエントリの2つのリスト、"キーワード"と"グループ"を持っています。私はレーベンシュタインを使用して、リスト「キーワード」、リスト「グループ」の最も近いエントリの各エントリに割り当てられる出力（パンダで理想的にデータフレーム）を生成したいと思います距離メソッド。ご協力いただ

1熱

1答えて

複数の列にわたるlevenshtein距離のRテキスト・マイニング

levenshtein distance（adist function in R）を介して、複数の列にわたってテキスト文字列を複数回比較したいとします。私がしたいことはsource1$nameとsource2$nameを比較することです。一致するものがない場合（すなわち、match.s1.s2$s2.iに対してNAが返された場合、2つのデータフレームにリストされているアドレス（source1$ad

0熱

2答えて

MS SQL Serverでmdq.SimilarityスコアをMDSの編集操作数に変換する方法は？

mdq.Similarityの結果を、2つの単語が一致するために必要なnumber of editsに変換するにはどうすればよいですか。 USE [mds] ALTER FUNCTION [mdq].[Similarity](@input1 [nvarchar](4000), @input2 [nvarchar](4000), @method [tinyint], @containmentBia

-1熱

2答えて

Pythonで私の列の行のLevenshtein率/距離を計算するには？

私は1つの列とその列に1000行だけのデータフレームを持っています。すべての行を比較し、すべての行についてLevenshtein距離を見つける必要があります。私はPythonでその比率または距離を計算するにはどうすればよいは、私は次のようにデータフレームを持っている： #Df StepDescription click confirm button when done

-3熱

2答えて

私のAndroidアプリでタイプミスのSQLiteの選択

SQLiteデータベースからデータを選択する必要があります。しかし、ユーザーが場所の名前を入力できる検索フィールドがあります。彼らがこの名前をタイプするかもしれないので、私はこれに応じてデータベースから関連するレコードを描くことができる必要があります。例えば：入力：フェリスWhrrl 実際：観覧車それはタイプミスにもかかわらず、正しく観覧車エントリを見つけなければなりません。 editdis

3熱

1答えて

複数値の文字列比較python

私はデータセットを持っています。最初の（A）は洗練された名前の機器のリストです。 2番目は、より幅広い機器カテゴリ（B）のリストです。最初のリストを文字列比較を使用してグループ化する必要があります。私はこれが完璧ではないことを知っています。リストAの各エンティティについて、リストBの各エンティティのレベンショニング距離を設定したいと思います。最高のスコアを持つリストBのレコードは、そのデータポイ