2012-03-14 8 views
0

Google検索結果にサイトの位置を取得するアルゴリズムまたはパーサーをコーディングしたいと思います。問題はGoogleのページレイアウトが変更されるたびに私はアルゴリズムを修正/変更する必要があります。みんなが本当にしばしば変わるだろうとどう思いますか? Googleのサイトの位置を特定する技術/アドバイス/トリックはありますか?Google検索結果のサイトの位置を取得する

どのようにして堅牢な位置検出アルゴリズムを作成できますか?

私はその目的でC#、.NET 2.0、およびHtmlAgilityPackを使用したいと思います。アドバイスや提案は非常に高く評価されます。事前に感謝、みんな!


POSTのUPDATE

私はGoogleが、機械の問い合わせを防ぐためにキャプチャが表示されますことを知っています。私はそれのための特別なサービスを持って、それは任意のcaptchaを認識します。正確に結果をスクラップした経験について教えてもらえますか?

答えて

1

I asked about this 1年前、良い回答がありました。間違いなくアジリティパックは道のりです。

最後に私たちはでした。は、仕事をして問題なく走ったラフスクレーパーをコードします。私たちは比較的軽くGoogleにヒットしていました(1日あたり約25件)。私たちは、1)順序と2)時間と3)クエリ間で一時停止する時間をランダム化するという予防策をとった。私が助けてくれたかどうかはわかりませんが、私たちはキャプチャを打つことはありませんでした。

今はあまり気にしません。

その主な弱点であった/は、以下のとおりです。私たちは、最初のページだけをチェックするためにわざわざ

  • (私たちは、おそらく最初のXページを見て強化されたバージョンをコード化している可能性があり、多分それは高くなるであろうリスク - Googleによって検出される点で)

  • その結果は信頼できず、飛び去っていました。あなたは3日目の1日ランダムな日を除いて、毎週8日になることができます。おそらく...慎重に毎日または毎週の読書を取り、私たちのランキングをログ記録の全体的なアイデアは、Googleがあなたのコードを壊すに関するご質問に答えるために

あまりにも欠陥がある:Googleは私たちが走ったすべての月で根本的に破壊変更を行っていませんでしたそれは変更されました何か私たちは結果の信頼性を改善するために何もしなかった結果(おそらくCSSの変更?)を保存していた "スナップショット"を破った。

+0

あなたの経験を伝えてくれてありがとう! – kseen

2

Googleは、サービスにアクセスするには、APIsの多数を提供しています。検索にはCustom Search APIがあります。

+2

これは正当な方法でこれを行う唯一の方法です。しかし、結果はまったく役に立たず、まれに正確です。 – LiamB

+0

@Pino私はあなたの意見に同意します。 – kseen

+1

自動問合せを明示的に禁止するAPIにT&Cはありませんか? – hawbsl

-1

Google検索結果に簡単にアクセスできないことは間違いありません。彼らは常にそれをやる人々を止めようとしています。

スクリーンスクレイピングについて考えると、キャプチャの表示が開始され、何も取得できないことに注意してください。

+0

downvoteの場合は、コメントを追加して理由を説明してください –

1

私たちは数ヶ月前にこのプロセスを行った。上記のAPIを試してみましたが、実際の検索結果には至っていませんでした。 (このたくさんの情報のためにGoogleが)。

ページをスクラップすると問題が発生します.Googleは数カ月ごとにマークアップを変更するように見えますが、あなたが人であるかどうかにかかわらず、チェックアウトしているようです。

私たちは最終的に、市販の(そしてよく更新された)ビットのキットをあきらめて行きました。

+0

それは何ですか? – kseen

1

私はこれについて、オーガニック検索結果とアドワーズ結果を解析して、2つのプロジェクトをコーディングしました。 HTML Agilityパックは間違いなく道のりです。

私は思いついた3分ごとにクエリを実行していましたが、これはCAPTCHAをトリガしませんでした。

フォーマットの変更に関して、私はULのID(ここでメモリと話しています。)をピックアップしていて、1年ほどで1回(オーガニックとアドワーズ)に変更されました。

しかし、上記のように、Googleは本当にあなたがこれをやって好きではありません! :-)

関連する問題