ウェブクローラのpython（複数のウェブサイト）

私はrequestsとbs4を使いました。サークルでは、私はすべての 'スープ'を取得するときに最後の 'スープ'が正しいことがわかりました。他の 'スープ'はHTMLソースとは異なります。私を助けてください。ありがとう。ウェブクローラのpython（複数のウェブサイト）

for eachLine in files: 
    addr = 'http://neuromorpho.org/neuron_info.jsp?neuron_name='+eachLine 
    print addr 
    st = [] 
    st1 = [] 
    r2 = requests.get(addr) 
    soup2 = bs4.BeautifulSoup(r2.text,"lxml") 
    print soup2

出典

2016-07-29 Pro

要求オブジェクトは、サイトのすべてのコンテンツを持っているコンテンツのパラメータを持って、あなたはBS4

for eachLine in files: 
    addr = 'http://neuromorpho.org/neuron_info.jsp?neuron_name='+eachLine 
    r2 = requests.get(addr) 
    content = r2.content 
    soup2 = bs4.BeautifulSoup(content) 
    print soup2

を使用してそれを解析することができます

出典

2016-07-29 03:37:06

ウェブクローラのpython（複数のウェブサイト）

答えて

関連する問題