2012-02-07 9 views
1

です。 10百万目標は、すべての検索エンジンから返されたヒット数を収集することです。たとえば、Googleはクエリ「stackoverflow」に対して約47,500,000を返します。ウェブ検索のヒット件数は

1- Google APIは1日あたり100クエリに制限されています。私はたくさんのカウントを取得しなければならないので、これは私の仕事にとって有益ではありません。

2私はBing APIを使用しましたが、正確な数値は返されません。 Bing UIに表示されるヒット数を一致させるという意味での正確さ。以前誰かがこの問題を遭遇しましたか?

3-検索エンジンに検索クエリを発行し、HTMLを解析する一つの解決策であるが、それはCAPTCHAをもたらし、クエリのこの数に拡張しません。

私が気にすべてがヒットの数と、私はどんな提案のためのオープンだということです。


simchona:ポーリングの人はどういう意味ですか? :)

hackartist:あなたのコメントと論文に感謝します。

+0

あなたは人を投票したいですか? – simchona

+1

私はこれにも興味があります。ただ、大規模な検索エンジンは、サーバー間でシャーディングするため、常に同じ結果を返すわけではありません。言い換えれば、異なるトラフィックがあり、最新のものではなかったサーバの別の1つをヒットしたため、大幅に異なる番号を取得することができる1時間で同じGoogle検索を実行します。また、[シノニム用のWebマイニング:TOEFLのLSA対PMI-IR]紙をチェックアウト(http://www.cs.washington.edu/education/courses/cse573/04au/papers/0212033.pdf) – hackartist

答えて

2

まあ、私は本当にこれは私も調べることに興味があったものですので、誰かがこれを答えるだろうと期待していたが、それは誰も似ていないので、私はこれらの提案にスローされますされます。

あなたは、一見異なる人々(多くの作業のように思える)としてGoogleを照会できるように、すべての100個の要求彼らのIPを変更するプロキシのシリーズを設定することができます。あるいは、download wikipediaと書くことができます。そこにデータを解析することで、用語を検索したときにページ数がわかるようになります。もちろん、ウェブ全体よりもはるかに小さいデータセットですが、開始する必要があります。もう1つの可能なデータソースはgoogle n-grams dataです。ダウンロードして解析することで、検索用語が含まれる本とページの数を確認できます。これらの方法を組み合わせることで、任意の検索語句の精度を高めることができます。

は確かにこれらのメソッドのどれもあなただけの直接Googleのページ数を取得することができれば良いとしてではないが、当然のことながら、それは、彼らが自由のために与えたくないデータがあります。

+0

おかげhackartistあなたの答えです。 私は、一連のプロキシを設定してトラフィックを調整する経験はありません。ですから、私はこれを最後の選択肢の1つとして残したいと思います。 Wikipediaは私の仕事の代表的なデータセットではありません。私はそれを試して、それは有用ではありません。 私は現在、Googleのnグラムデータを使用しています。また、タイトル、本文、アンカーテキストの統計情報へのアクセスを提供するMicrosoftデータセットを使用することをお勧めします。しかし、マイクロソフトのデータの問題は、単純なカウントではなく確率を返すことだけです。 もう一度ありがとうございます。 –

+0

このデータをどのようなプロジェクトで使用しようとしていますか?つまり、正しい種類のソーステキストは何ですか?あなたが現在話していることを探しているなら、twitterとblogosphereを忘れないでください。 (またStackOverflowの上で役立つ答えを見つけたら投票してください。そうすれば、回答者の評判が追加され、他の人が自分の質問に答えられるようになるので)。 – hackartist