私はジャーナル記事の引用方法を分析するプロジェクトに取り組んでいます。私は雑誌の記事のファイルの大きなファイルを持っています。私はそれらをGoogle Scholarに渡し、それぞれの引用数を確認します。 http://www.icir.org/christian/scholar.htmlからtorとpythonを使用してGoogle Scholarをスクラップする
使用 "scholar.py":ここでは
は、私は、次の午前戦略です。これは、Google Scholarを検索し、CSV形式の最初のヒットに関する情報(引用数を含む)を返すあらかじめ書かれたPythonスクリプトです。Googleの学者が一定数の検索の後にあなたをブロックしますクエリ)。ほとんどの人がこの問題を解決するためにTor(How to make urllib2 requests through Tor in Python?とPrevent Custom Web Crawler from being blocked)を使用していることが分かりました。 Torは、数分ごとにランダムなIPアドレスを与えるサービスです。
私はscholar.pyとtorの両方を正常にセットアップして動作させています。私はpythonやライブラリurllib2に慣れておらず、クエリがTorを経由してルーティングされるように、どのような変更がscholar.pyに必要であるか疑問に思います。
Googleグーグルの学者向けの検索クエリがあれば、より簡単なアプローチ(潜在的にはかなり異なる)を提案することもできます。私にとっては、事前
最初のリンクはもう有効ではありません – chrisfs
リンクの腐敗、それはリンクの唯一の答えが吸う理由です...私は答えに指示を含める必要があります、残念ながら今は、申し訳ありません。 –
リンクは現在バックアップされています – user3791372