私は、特定のウェブサイトまたはウェブ全体からのジャーナルの影響要因を削ぎ取ろうとしています。私は何かを探していたが、運が悪い。クエリでウェブをくりぬく
これは私がpythonでウェブスクレイプをしようとしている初めてのことです。私は最も簡単な方法を見つけようとしています。
私はISSN番号のリストがジャーナルに属しており、ウェブまたは特定のサイトからそのインパクトファクタ値を取得したいと考えています。リストには50,000を超える値があり、手動で値を検索するのは実用上困難です。
入力タイプ
Index,JOURNALNAME,ISSN,Impact Factor 2015,URL,ABBV,SUBJECT
1,4OR-A Quarterly Journal of Operations Research,1619-4500,,,4OR Q J OPER RES,Management Science
2,Aaohn Journal,0891-0162,,,AAOHN J,
3,Aapg Bulletin,0149-1423,,,AAPG BULL,Engineering
4,AAPS Journal,1550-7416,,,AAPS J,Medicine
5,Aaps Pharmscitech,1530-9932,,,AAPS PHARMSCITECH,
6,Aatcc Review,1532-8813,,,AATCC REV,
7,Abdominal Imaging,0942-8925,,,ABDOM IMAGING,
8,Abhandlungen Aus Dem Mathematischen Seminar Der Universitat Hamburg,0025-5858,,,ABH MATH SEM HAMBURG,
9,Abstract and Applied Analysis,1085-3375,,,ABSTR APPL ANAL,Math
10,Academic Emergency Medicine,1069-6563,,,ACAD EMERG MED,Medicine
何が必要ですか?
上記の入力にはISSN番号の列があります。 ISSN番号を読んで、researchgate.net
またはウェブで検索してください。次に個々のWebページが見つかると、Impact Factor 2015
が検索され、ISSN番号の横の空白の場所に値を取得し、検索したURLを隣に配置します。
ウェブ検索も1つのサイトと1つに限定することができます空の1が提案するために、事前に「NAN」として
感謝を維持し、私は本当にあなたが正確にこすりしたいのか理解していないが、私はあなたが必要だと思う
beautifulsoupまたはscrapyなどのPython用のWebスクレイピングのライブラリを確認してください。そこには巨大なチュートリアルがあります。私はパンダのタグが少しあなたの質問には不適切だと思う。スクレイピングを終えた後、パンダは便利です。 – su79eu7k
@ su79eu7kはじめにしていただきありがとうございます。しかし、このようなことは可能ですか? –
[this](https://blog.hartleybrody.com/web-scraping/)のブログ記事によると:** "ウェブページで閲覧できるコンテンツはすべて抹消することができます。場合によってはそうするのは難しいかもしれませんが、あなたのようなサイトでは、それは確かに実行可能です。 – blacksite