edit-distance

1熱

1答えて

文字列がテーブル内の文字列に近い場合は、テーブル内の文字列に置き換えられますか？スペルチェック機能と同様に、テーブルを検索します。入力がテーブル内の1に近い場合は修正されますので、テーブル内の文字列と文字列は同じですか？

0熱

1答えて

私はビジネスで最も近い単語に対してLevenshteinアルゴリズムを使っていくつかの文字列マッチングを試みています。（パイソンしかし、言語では大きな違いをすることはありません）クエリの例は、「BNA」緯度経度& 検索=となり、私が探していた結果近くにあります。パブは、右の私の希望は、それは私が二つの異なる方法を試してみました（BNA == BNAとして）最初を示していることだろうBN

1熱

1答えて

文章を編集距離でグループにまとめるには？

文章（テキストリスト）とそのPOSタグ（POSリスト）の大きなセット（36k文）があり、編集距離/編集番号を使用してPOSリストの要素をグループ化/クラスタ化したいとします：（例えばSentx POSタグ= [CC DT VBZ RB JJ]、Senty POSタグ= [CC DT VBZ RB JJ]）、クラスタの編集距離= 0である一方（[CCのDT VBZ RBのJJ] 、[CC DT

1熱

2答えて

編集距離のヘッダーを維持する

stringdistを使用して編集距離を実行しています。出力は、比較対象の実際の文字列ではなく、入力を番号付きのリストに置き換えます。これは私が持っているもの現在： library(stringdist) a <- c("foo", "bar", "bear", "boat", method = "lv") stringdistmatrix(a) 1 2 3 2 3 3 4 1

0熱

1答えて

Javaエラー "main" java.lang.OutOfMemoryError：Javaヒープスペース

これは、Javaで次のmain関数を書いて、1000個のランダムに生成された10,20,50,100ペアの編集距離を計算します。長さは10 n 20ですが、長さ50ではこのエラーが発生しています。 msgstr "スレッド内の例外" main "java.lang.OutOfMemoryError：Java heap space"。私は何をすべきか分かりません。どんな助けもありがとう。 for (

0熱

1答えて

最小編集距離で効率的なランダムシーケンスを作成する

編集距離が最小のランダムシーケンス（4文字の異なる20文字の長さのシーケンス）を作成するためのプログラム/スクリプトを作成する必要がありますすべての配列。「高」はここでは100kシーケンスの最小値ですが、可能な場合は100万までです。ランダムな20文字のシーケンスを生成するという単純なアプローチから始まり、シーケンスごとに、すでに作成され保存されている他のすべてのシーケンスとの編集距離を計算し

10熱

1答えて

2文字列間の％一致を計算する方法はありますか

2文字列の間の％一致を計算する方法はありますか？私は85％一致があるならば、私は2つのテーブルを結合します2弦の間の一致を計算するために必要な状況を持って、私は2つのテーブル私のサンプルを組み合わせるためのコードを書かれています文字列は次のとおりです。 var str1 = 'i love javascript'; var str2 = 'i love javascripttt'; v