similarity

0熱

2答えて

と複数の要素の類似度を算出私はすべての2番目の要素は、様々な長さを有する、ネストされたリストを持っている： lst = [[a,bcbcbcbcbc],[e,bbccbbccb],[i,ccbbccbb],[o,cbbccbb]] 私の出力は、この表情でデータフレームのCSVである： comparison similarity_score a:e *some score

33熱

6答えて

スパース行列データを与えたときのコサイン類似度を計算するPythonの中で最も速い方法は何ですか？

疎な行列のリストがある場合、行列の各列（または行）間のコサインの類似度を計算する最良の方法は何ですか？むしろ、n-chooseを2回反復しないでください。 A= [0 1 0 0 1 0 0 1 1 1 1 1 0 1 0] スパース表現である：Pythonで A = 0, 1 0, 4 1, 2 1, 3 1, 4 2, 0 2, 1 2, 3 、それがマトリックス

4熱

1答えて

ネットワークグラフの類似性に基づく上位10人の友人

私は1000人のユーザーとそのネットワークの隣接リストを持っています。私はigraphライブラリを使用しています。私が使用してグラフを作成しました： graph.adjlist(adjlist, mode = c("out", "in", "all", "total"),duplicate = TRUE) を次に、各ユーザ間の類似性を見つけるために： similarity.jaccard(g

7熱

1答えて

類似度で行と列をソートするアルゴリズム

連続した行と列の間の変更回数を最小限に抑えるために、バイナリデータを含む行列の行と列を並べ替える方法について説明したa spreadsheetになりました。例えばが始まる： spreadsheedのタブで説明15の手動手順は、次の表が得られた後：私がしたいです知っている：このアルゴリズムまたはメソッドの共通名は何ですか？大きなテーブルに適用する方法（2^nがオーバーフローする...） L

1熱

2答えて

simhashよりもさらに有利なミニハッシュはありますか？

私はsimhashと一緒に働いていますが、minhashがより効果的であることも見ています。しかし、私は理解していません。私のために説明してください：simhashよりもさらに有利なミニハッシュはありますか？

0熱

1答えて

スカラ文字列の類似度

文字列間の類似度を計算し、すべての一意の文字列を与えるScalaコードがあります。 val filtered = z.reverse.foldLeft((List.empty[String],z.reverse)) { case ((acc, zt), zz) => if (zt.tail.exists(tt => similarity(tt, zz) < threshold

1熱

1答えて

は、インデックス（Matlabの）と、文字列のセル配列に1つの文字列を比較

I持ってsringsの1列と1セル配列： F = 'ABCD' R = {'ACBD','CDAB','CABD'}; 私はR内のすべての文字列と文字列Fを比較したいと思いますF（1）= 'A'かつR {1}（1）= 'A'ならば、1（それらは同じ値 'A' {1}（2）= 'C'私たちは0をカウントします（異なる値を持つため）...そして、それはすべての文字列の終わりまでです。こ

-2熱

1答えて

与えられた文字列に類似した値の配列をチェックする方法は？

は現在やってプロジェクトに取り組んで次は、（すべての良い）のテキストの大きな体に2と5単語間の最も一般的なフレーズを取得リターン$フレーズ=> $出現した配列私は今、この配列内の各値を取り、その場合、配列の残りの部分で同様のものがあるかどうかを確認して、1にそれらをマージし、その発生を総括したいです。 similar_text（）を使用して、フレーズとどれほど類似しているかを比較し、95より

0熱

1答えて

ES 1.4とES 2.3のAnalyzer APIを使用して異なる位置値を取得

私はES 1.4からES 2.3にアップグレードしており、ドキュメントのスコアリングをテストしている間に同じクエリのExplain APIの出力の違いに気づいた： { "value": 0.9890914, "description": "fieldWeight in 3931, product of:", "details": [ { "val

6熱

1答えて

パンダのデータフレームからjaccardの類似度を計算する方法

私は以下のようなデータフレームを持っています。フレームの形状は（1510,1399）です。列は製品を表し、行は特定の製品に対してユーザーによって割り当てられた値（0または1）を表します。どうすればjaccard_similarity_scoreを計算できますか？私はdata_ibsの類似性を計算するためにかかわらず、反復するかどうかはわからない製品 data_ibs = pd.DataFrame