Google Scholarのタグに基づいて作者を掻き立てる

-1

私はGoogle Scholarのデータをスクラップするプロジェクトに取り組んでいます。私はカテゴリー（例えばAnaphylaxis）でタグ付けされたすべての著者を掻き集めて、引用数、h-indexとi-10インデックスをCSVファイルに保存したいと思います。しかし、私はGoogle ScholarにAPIがないので、これを行う方法は不明です。私は美しいスープのようなスクレーパーを使うことができると理解していますが、ブロックされずにデータをスクラップする方法は不明です。Google Scholarのタグに基づいて作者を掻き立てる

私の質問は、bs4を使用して、アナフィラキシーとしてタグ付けされたすべての著者とcsvファイル内の各著者の引用、h-インデックスおよびi-10インデックスをどのように保存できるかです。

出典

2016-12-25 user7339949

質問は何ですか？ – Peaceful

@Peaceful明確にするために更新しました – user7339949

かなり面白いですね！私は、特にブロックされているという答えはありません。しかし、おそらくあなたはhttps://pypi.python.org/pypi/scholarly/0.2.2を見たことがありませんか？これらの結果にコードをパターン化することができます。 –

スクレーパーが行っているのは、一部のHTMLページの解析です。検索すると、作者はclass = "gs_a"のdivになります。美しいスープを使ってこのクラスを探すと、すべての作者を見つけることができます。あなたは、URLを更新することによってページごとに行くことができます。

https://scholar.google.ca/scholar?start=20&q=polymer&hl=en&as_sdt=0,5 https://scholar.google.ca/scholar?start=30&q=polymer&hl=en&as_sdt=0,5

すなわちへ。 start = 30 then 40など

次に、gs_aクラスタグ内のリンクパス上の著者名ベースをループすることができます。

これが役立つ場合はお知らせください。

-kyle

出典

2016-12-25 15:42:55

私は各著者の論文の総数に興味があります – user7339949

Google Scholarのタグに基づいて作者を掻き立てる

答えて

関連する問題