2017-02-01 12 views
1

私はpeoplefinders.comからデータを削り取ろうとしています。しかし、私が検索したい部分は空に戻ります。私はjupyterノートでカーネルを実行しpython XPath for peoplefinders.com missing text items

  • <a class = "reporttextblue" href = "..."> 
    text text text 
    <span></span> 
    text text text 
    <br/> 
    text text text 
    </a> 
    

    注:HTML形式の検査では、私がしたいテキスト部分はとして

    page = requests.get("http://www.peoplefinders.com/peoplesearch/searchresults?search=People&fn=joe&mn=&ln=jackson&city=&state=&age=&dobmm=&dobdd=&doby=1955") 
    tree = html.fromstring(page.content) 
    page.headers['Content-Type'] #'text/html; charset=utf-8' 
    
    tree.xpath('//a[@class = "reporttextblue"]') #returns [] 
    

    を行きます。

  • IEとChromeの両方のブラウザで試しましたが、うまくいきませんでした。
  • ウェブサイトは動的です。最小化または最大化すると、 html as :: beforeおよび:: afterが変更されます。
  • 実行されているウェブサイトからの欠けているテキストがあります。

    tree.xpath(「//テキスト()」)

私は誰かが背後にある本当の理由が何であるかを教えかもしれないことを願っていますこれは、Pythonを使用してそのデータをスクラップするより良い方法を教えてくれるかもしれません。

ありがとうございました

+0

上記のページで 'class =" reporttextblue "という要素を見ることができません。 'class =" text-blue name-blue "'を意味しますか? – Andersson

答えて

0

ここに記載されているページのどこに不明な点がありますか。ページ内では、それらのノードはaノード内ではなく、兄弟です。したがって、兄弟姉妹を使ってそれらのノードに移動するだけです。

あなたが言及したDOMについては、インデックス(例:/ text()[1]または/ text()[2])を配置してみてください。

0

私はまったく同じページには2つの見解があることを考え出し:ユーザー 2をLOGGEDINについて) 1)他の視聴者

認証情報を持つ単純なsession.postは私が私から望んでいたデータを取得することができ始まり。