stringdist

    1

    1答えて

    に一致していない、と言う: a = c("tom", "tommy", "alex", "tom", "alexis", "Alex", "jenny", "Al", "michell") は、私は、このベクター内の類似性スコアを取得するために使用levenshteinSimまたは類似を取得したいです。しかし、私は自己スコアにしたくありません。たとえば、"tom" #1は"tom" #3とスコ

    1

    2答えて

    stringdistを使用して編集距離を実行しています。出力は、比較対象の実際の文字列ではなく、入力を番号付きのリストに置き換えます。これは私が持っているもの現在: library(stringdist) a <- c("foo", "bar", "bear", "boat", method = "lv") stringdistmatrix(a) 1 2 3 2 3 3 4 1

    -1

    1答えて

    以下のコードでは、2列のテキスト文字列間の類似度を計算します。これを達成するには、虹彩から "Petal.Length"それをa1に割り当て、虹彩の「Sepal.Length」列の最初の4行をa2に割り当てます。私の目的は、最後の行の数式を使って各a2値をすべてのa1値と比較して、40個の値を持つ最終ベクトルpercent_calcを得ることです。 library(stringdist) lib

    1

    1答えて

    で表示する以下のコードを確認してください。以下の3つの変数を使用してデータフレームを作成しました。変数y123はa2とa1の間の類似性を計算します。変数 "y123"は私に合計16個の値を与え、すべてのa1の値がa2と比較されます。特定の「a1」値と特定の「a2」値を比較すると、「a2」に対応する「a3」値が表示されます。結果は、列y123を有するデータフレームであり、対応する「a3」列は、4回、

    0

    1答えて

    stringdistmatrix(c())を使って行列を出力しましたが、うまくいっていますが、今度はすべての場合に値が< = 3のRを表示する必要があります。マトリックス内の値?予め おかげ!

    1

    1答えて

    文字列内の人の固有の名前を数えて、わずかなタイプミスがあるかもしれないということを考慮する必要があるという問題に取り組んでいます。 文字列を一定のしきい値(たとえば、2より下のレベンションの距離)以下に設定することを考えました。今は文字列の距離を計算することができますが、入力文字列に変更を加えずに、正しい数の一意の名前を得ることができます。 library(stringdist);library(

    0

    1答えて

    fuzzy_join私はこれらのtwoquestionsに答えると、適切な解決策を得たが、私はトラブル私はfuzzyjoin::stringdist_joinから抽出match_funにfuzzy_joinを使用して引数を渡すを有していました。 私は取得していますエラーメッセージは次のとおりです。 # Error in mf(rep(u_x, n_y), rep(u_y, each = n_x),

    4

    1答えて

    2つのベクトルの各単語間のJaccard類似度を計算する必要があります。各単語ごとに各単語。そして最も類似した言葉を抽出する。 txt1 <- c('The quick brown fox jumps over the lazy dog') txt2 <- c('Te quick foks jump ovar lazzy dogg') words <- strsplit(as.charact

    1

    1答えて

    私はファジー結合を行うためにstringdistパッケージを試しています。私は理解していない問題にぶつかり、答えを見つけることができません。 "dl"メソッドでこれらの2つのデータテーブルを結合したいのですが、それはNAを生成します。これは完全に理解できません。たぶんあなたの誰かがこれについての説明をしています。 コード:誰でも明確にすることができます y <- stringdist_join(t

    1

    2答えて

    2つの大きなデータセットがあります.1つは50万回、もう1回は70,000回です。これらのデータセットにはアドレスがあります。小さいデータセット内のアドレスのいずれかが大きいものに存在する場合、私は一致させたい。あなたが想像しているように、住所は異なった方法で書かれていても、異なった場合やスペルで書かれていても構いません。したがって、異なるフラットは同じ住所を持ちます。私はいくつかの調査を行い、使