2016-12-25 7 views
-1

私はGoogle Scholarのデータをスクラップするプロジェクトに取り組んでいます。私はカテゴリー(例えばAnaphylaxis)でタグ付けされたすべての著者を掻き集めて、引用数、h-indexとi-10インデックスをCSVファイルに保存したいと思います。しかし、私はGoogle ScholarにAPIがないので、これを行う方法は不明です。私は美しいスープのようなスクレーパーを使うことができると理解していますが、ブロックされずにデータをスクラップする方法は不明です。Google Scholarのタグに基づいて作者を掻き立てる

私の質問は、bs4を使用して、アナフィラキシーとしてタグ付けされたすべての著者とcsvファイル内の各著者の引用、h-インデックスおよびi-10インデックスをどのように保存できるかです。

+0

質問は何ですか? – Peaceful

+0

@Peaceful明確にするために更新しました – user7339949

+0

かなり面白いですね!私は、特にブロックされているという答えはありません。しかし、おそらくあなたはhttps://pypi.python.org/pypi/scholarly/0.2.2を見たことがありませんか?これらの結果にコードをパターン化することができます。 –

答えて

0

スクレーパーが行っているのは、一部のHTMLページの解析です。検索すると、作者はclass = "gs_a"のdivになります。美しいスープを使ってこのクラスを探すと、すべての作者を見つけることができます。あなたは、URLを更新することによってページごとに行くことができます。

https://scholar.google.ca/scholar?start=20&q=polymer&hl=en&as_sdt=0,5 https://scholar.google.ca/scholar?start=30&q=polymer&hl=en&as_sdt=0,5

すなわち へ。 start = 30 then 40など

次に、gs_aクラスタグ内のリンクパス上の著者名ベースをループすることができます。

これが役立つ場合はお知らせください。

-kyle

+0

私は各著者の論文の総数に興味があります – user7339949

関連する問題