2012-03-26 12 views
0

私の上司は私に約3500社のリストを与えてくれました。私はこの音が遅れていることを知っています。それはありますが、私たちのクライアントはそれを要求しています。Googleからの会社の連絡先の詳細

  • 会社名
  • のためのGoogle検索を行って、私たちについてお問い合わせを/見つけるためにウェブサイトのリンクを介してステップを会社のウェブサイトを特定し、それに
  • をリダイレクト:私は取るしたいのアプローチはこれですページ
  • 見つけて

は、私がここにあるのpythonのビットを行ってきたページの最初の電子メールアドレスを返しますが、何のWebベースまたは正規表現と...私は基本的な考え方Iドンを得るのに私ができるかどうかわからない次の12時間以内にこれを実行してください。

誰がどのように私ができるスクリプト上の任意の助けを持っている場合、これはPythonやルビーと私は非常に感謝だろう...... Rubyで

+2

私はそれを言いたくはありませんが、それは前にそれをしていない場合は12時間以内に行う合理的な要求ではありません。 –

+2

あなたは、特定のウェブページ上で「私たちに連絡する」ページを自動的に*見つける*に本当に苦労します。あなたがこのルートを行っている場合は、検索結果の中に通常アドレスと電話の情報を与えるグーグルマップを照会する方が良いかもしれません。 – samb8s

+0

+1 @ samb8sでは、ページ上の適切なリンクを見つけようとするのは難しく、「連絡先」ページ指定の標準がないため、多くのデッドエンドや制御不能に陥る可能性が高くなります。 –

答えて

0

、あなたはおそらく一緒に、Google's Custom Search APIを使用して見たいと思うでしょうMechanize gem。 RubyのURIライブラリ、またはAddressable::URI gemが便利です。また、RubyのOpen::URIまたはCurbTyphoeusのようなものが役に立ちます。

Googleのページをスクラップしたくないです。彼らはスクレイピングなしで利用可能な応答を返すためのAPIを持っています。あなたが3500回の検索を掻き取ろうとすると、完了する前にあなたを禁止すると驚くことはありません。

実際のコードサンプルは、ライブラリや宝石のドキュメントにあります。

4

もっと技術的ではない解決策を探します。 3500の名前を分けて、HITとしてAmazon Mechanical Turkに投稿し、それぞれ1セントずつ支払うことができます。その後、Googleを掻きするコードを書く代わりに、ヒットを作成するコードを書いて、実際の人々が会社のウェブサイトを "掻き集める"ようにします。

それがうまくいくかどうかわかりませんが、それはおそらく私がやることです。

希望に役立ちます!

ブランドン

関連する問題