2011-08-22 4 views
8

ライブのA/Bとコントロールを並行して実行して、変更が検索品質にどのような影響を与えるかを理解するのを支援したいと考えています。ブースト値やファジークエリなどの変数をテストします。Solr Relevancy - 検索品質のA/Bテスト方法

その他メトリックは、ユーザーがA対Bを好むかどうかを判断するために使用されますか?ここで私はオンラインで見つける2つのメトリクス... Googleアナリティクスで

  • があり、「%検索を終了は、」あなたはあなたのサイトの検索の品質が

  • 別の方法を結果測定 に使用することができます測定基準であります検索品質を測定するには、訪問者が閲覧する検索結果ページの数を測定する必要があります。

答えて

8

検索品質は簡単に測定できません。関連性を測定するには、2つのものが必要です。

  1. 競合他社との関連性を測定する。あなたのケースでは、検索エンジンの異なるインスタンスが互いに競合するでしょう。私は、1つの検索エンジンインスタンスが基本的なアルゴリズムを実行し、もう1つはファジーが有効であり、もう1つはファジーとブースティングなどがあることを意味します。

  2. 結果を手動で評価する必要があります。あなたは、あなたの同僚に人気のあるクエリのクエリ/ URLのペアを評価してから、その穴(すなわち、評価されていないクエリ/ URLのペア)を「Ranking」アルゴリズムhttp://en.wikipedia.org/wiki/Learning_to_rankを使って動的ランク付けすることができます。 (グーグル/ビングの例を以下にお読みください)真のthats。

GoogleとBingのは、水平検索市場で競争相手である。これらの検索エンジンは、世界中の手動審査員を採用し、レートに、それらに何百万を投資これらの評価に基づいて、NDCG(Normalized Discounted Cumulative Gain)のようなメトリックを使用することができます。これは、最も優れたメトリックの1つであり、最も人気のあるもの。

According to wikipedia

割引累積利得(DCG)は、多くの場合、情報検索で使用されるWeb検索エンジン>アルゴリズムまたは関連アプリケーションの有効性の尺度です。 DCGは、検索エンジンの結果セット内のドキュメントの尺度>関連性尺度を使用して、結果リスト内のその位置に基づいて、ドキュメントの有用性、つまり利得を測定します。利得は、結果リストの上端から下端まで累積され、各結果の利得は、より低いランクで割り引かれます。

ウィキペディアはNDCGを素晴らしい方法で説明しています。それは短い記事です、それを通過してください。

あなたが言及したように、あなたは群集アルゴリズムの知恵のようなものを持っていて、それに基づいて関連性を微調整することができます。それは非常に良い方法ですが、それはスパミングを引き付けます。したがって、関連性の問題を解決するには、NDCG/MAPなどのメトリックと結合する必要があります。

あなたのケーススタディの中でどのように組み合わされているかについてもっと知る必要がある場合は、これについてさらに詳しく説明できます。

関連する問題