2016-03-24 19 views
0

のためのリストを命じた比較私は2つのリストがあるとします。は、2つの類似

L1: [1,2,3,4] 
L2: [1,3,2,4,5] 

にはどうすれ間の類似性は、二つのリストを学位論文計算することができますか?

これらの2つのリストの長さが同じであれば、SpearmanとKendallは答えのように見えますが、この原則は発散長のリストにも拡張できますか?

+0

では、彼らは常にランクはありますか?またはそれらは任意のリストですか? – Memming

+0

数値リストですか? – nicoguaro

+0

いいえ、文字列です。しかし、私はSimHashを使って数値を取得するか、関数I(string) - > intを作ることができます – JohnDoe

答えて

2

バイオインフォマティクスおよび言語解析フィールドにも同様の問題があります。さまざまなシーケンスカーネル(例えばCorinna Cortesの論文を参照)とedit distancesを使用することができます。

2

リストの類似性を測定する有望なアルゴリズムのように、スピアマンフートルール距離http://people.revoledu.com/kardi/tutorial/Similarity/FootruleDistance.html以上を使用し、累積利得をディスカウントしたDCG、https://www.kaggle.com/wiki/NormalizedDiscountedCumulativeGainを使用することです。

そのトピックに非常に優れたリソースが

http://arxiv.org/pdf/1107.2691.pdf

http://theory.stanford.edu/~sergei/slides/www10-metrics.pdf

関連する問題