2017-02-05 18 views
0

このクエリでjsoupを使用してポストのinstagram imgを取得しようとしていますが、結果が得られません。jsoupを使用してhtmlでイメージsrcを取得できません

私はこのポストからスクラップしたいimgタグは、Webページhttps://www.instagram.com/p/BQGyI2JjKUN/あなたはhttpリクエストを作るときに、レンダリングのJavascriptで、サイトにあなたが帰ってもらうすべてをこすりしようとすると、そのID = pImage_0

doc = Jsoup.connect("https://www.instagram.com/p/BQGyI2JjKUN/").get(); 
     title = doc.title(); 
     System.out.println("Title:"+title); 
     Elements images = doc.select("img[src~=(?i)\\.(png|jpe?g|gif)]"); 
     for (Element image : images) { 
      System.out.println("src : " + image.attr("src")); 
      System.out.println("height : " + image.attr("height")); 
      System.out.println("width : " + image.attr("width")); 
      System.out.println("alt : " + image.attr("alt")); 
     } 

答えて

0

を持っています何も見つからないので、sysoutimage.attrにしようとすると、何も見えないのです。もしあなたがview-source:https://www.instagram.com/p/BQGyI2JjKUN/を見るならば、それはあなたが掻き取らなければならないものです。これらの画像を傷つける唯一の方法は、ボットを作成するかinstagram's APIを使用してウェブブラウジングセッションを偽装することです。

Google java headless browserをGoogleに送信して、役立つ情報を見つけることができます。ここでも

0

ウェブサイトは、AJAXを使用していることがそのデータをロードするために呼び出すことを成し遂げることができ、いくつかの有用なものがあります。

と単純なリクエストはJSをまったく実行しません。

2つの選択肢があります。

1)すべてのAJAX呼び出し/ URLとそのパラメータを検査し、それらのURLに要求を送信してください 2)または、SeleniumまたはPhantomJSを使用してください。

+0

私はJavaを使用するので、私はアンドロイドでそれを行う必要があります。 javaにこの目的のために利用可能な他のlibがありますか? –

+0

Selenium Javaを検索 – Umair

+0

http://stackoverflow.com/questions/5771462/extract-inner-element-without-loopingデータをチェーンで取得できますか? –

関連する問題