2013-02-18 13 views
6

質問があれば、私は文書のコサインスコアを持っています。私はまた、文書のページランクを持っています。 2つを組み合わせる標準的な方法がありますか?TF-IDF(コサイン類似度)をページランクと組み合わせるか?

私は乗算を考えていた彼ら

Total_Score = cosine-score * pagerank 

あなたがいずれかのページランクや余弦スコアにローに取得する場合、文書は興味深いものではありませんので。

また、加重合計を持つことをお勧めしますか?

Total_Score = weight1 * cosine-score + weight2 * pagerank 

これは良いですか?その後、コサインスコアはゼロになるかもしれませんが、高いページランクを持ち、結果の中にページが表示されます。

+0

重み付けされた合計は適切なトラックにありますが、hat * w(log)(PageRank)にしたいですか?またはw * log(1 + PageRank)?これはすべて線形結合ですが、シグモイド署名を持つ非線形結合を考慮したくないですか? – sAguinaga

答えて

-1

私はこれが役に立つと思われる単一のケースを想像することはできません。 Pagrankは、他の重要な文書への接続として文書がどのように「重要」になっているかを計算します(私はそれをあなたが意味するものと考えています。

コサインスコアは、2つのドキュメント間の類似メトリックです。ペアメトリックとノードメトリックを組み合わせて、別のドキュメントに似た重要なドキュメントだけを見つけることを考えていますか?なぜ、他の文書の自我ネットワーク上でページランクを実行しないのですか?

+1

コサインスコアは、クエリとドキュメントのコサイン類似度です。 – user1506145

0

私はあなたが相対性と重要性との間にトレードオフをしていることを理解しています。これは、Multi-objective optimizationの問題です。

私はあなたの2番目の解決策が動作すると思います。いわゆるリニアスカラー化です。重みを最適化する方法を知りたいと思うはずです。しかし、これを行う方法は、さまざまな哲学や、ケースごとに各変数の優位性に応じた種類の主観で見つけることができます。実際には、このような問題の重みを最適化する方法a research area of mathematicsです。どのモデルや方法があなたの場合に最も適しているかを指摘するのは難しいです。あなたは上記のwikiリンクを続けて、この種の問題についていくつかの原則を見つけて、自分の事件を解決するためにそれらをフォローすることができれば試してみてください。

1

ランク付けのルールとしては、おそらく加重合計が優れています。

これは、問題を検索/フィルタリングのステップとランキングのステップに分割するのに役立ちます。加重和アプローチで概説された問題はもはや成り立たない。

セルゲイ・ブリンとローレンス・ページの論文でthisに概説されているプロセスは、検索のためにベクトル/コサイン・モデルの変形を使用しており、ユーザーのアクティビティによって重みが決定されるランキングの重み付け和のようです.1)。このアプローチを使用すると、ゼロコサインを有する文書は検索/フィルタリングステップをパスすることができず、したがってランキングのために考慮されない。

0

harmonic meanを使用することを検討できます。調和平均では、2つのスコアは本質的に平均化されますが、低いスコアでは、平均を通常の平均よりも下にドラッグします。

あなたは使用することができます

Total_Score = 2*(cosine-score * pagerank)/(cosine-score + pagerank) 

はのは、ページランクは0.1と余弦0を獲得したとしましょう。9の場合、これらの2つの数値の通常の平均は(0.1 + 0.9)/2 = 0.5、調和平均は2*(0.9*0.1)/(0.9 + 0.1) = 0.18となります。