です。 10百万目標は、すべての検索エンジンから返されたヒット数を収集することです。たとえば、Googleはクエリ「stackoverflow」に対して約47,500,000を返します。ウェブ検索のヒット件数は
1- Google APIは1日あたり100クエリに制限されています。私はたくさんのカウントを取得しなければならないので、これは私の仕事にとって有益ではありません。
2私はBing APIを使用しましたが、正確な数値は返されません。 Bing UIに表示されるヒット数を一致させるという意味での正確さ。以前誰かがこの問題を遭遇しましたか?
3-検索エンジンに検索クエリを発行し、HTMLを解析する一つの解決策であるが、それはCAPTCHAをもたらし、クエリのこの数に拡張しません。
私が気にすべてがヒットの数と、私はどんな提案のためのオープンだということです。
simchona:ポーリングの人はどういう意味ですか? :)
hackartist:あなたのコメントと論文に感謝します。
あなたは人を投票したいですか? – simchona
私はこれにも興味があります。ただ、大規模な検索エンジンは、サーバー間でシャーディングするため、常に同じ結果を返すわけではありません。言い換えれば、異なるトラフィックがあり、最新のものではなかったサーバの別の1つをヒットしたため、大幅に異なる番号を取得することができる1時間で同じGoogle検索を実行します。また、[シノニム用のWebマイニング:TOEFLのLSA対PMI-IR]紙をチェックアウト(http://www.cs.washington.edu/education/courses/cse573/04au/papers/0212033.pdf) – hackartist