2016-10-24 11 views
2

マイxidelコマンドは次のとおりです。XPath式が空の出力を返します

xidel "https://www.iec-iab.be/nl/contactgegevens/c360afae-29a4-dd11-96ed-005056bd424d" -e '//div[@class="consulentdetail"]' 

これは私が思ったが、それは何かを印刷する文句を言わない特別なクラスconsulentdetail 何もしてdiv要素内のすべてのデータを抽出する必要があります。

誰かが私の間違いを見つけるのを助けることができますか?

//編集:私はFirefoxで同じ表現を使用する場合、それはあなたが明らかに接続しているサイトは、ユーザーエージェント文字列をチェックし、別のページを提供し、それを取得、ユーザーエージェント文字列に応じた所望のタグに

+0

「// div」とは何ですか?見つからない場合は、XPath式に問題はありません。 – Tomalak

+0

実際には何も見つかりません。しかし、 'join(// div、" ")'は一束のテキストを出力します。 – Fuzzyma

+0

何かの理由で私は何かの理由で私は結果を得ます。 – Tomalak

答えて

1

を見つけました送信されます。

xidelにユーザーエージェント文字列を送信するよう指示した場合は、 Windowsの10上のFirefox、クエリが動作するように開始します。経験則として

> ./xidel --silent --user-agent="Mozilla/5.0 (Windows NT 10.0; WOW64; rv:49.0) Gecko/20100101 Firefox/49.0" "http://www.iec-iab.be/nl/contactgegevens/c360afae-29a4-dd11-96ed-005056bd424d" -e '//div[@class="consulentdetail"]' 
Lidnummer11484 2 N 73 
TitelAccountant, Belastingconsulent 
TaalNederlands 
Accountant sinds4/04/2005 
Belastingconsulent sinds4/04/2005 
AdresStationsstraat 2419550 HERZELE 
Telefoon+32 (53) 41.97.02 
Fax+32 (53) 41.97.03 
AdresStationsstraat 2419550 HERZELE 
Telefoon+32 (53) 41.97.02 
Fax+32 (53) 41.97.03 
GSM+32 (474) 29.00.67 
Websitehttp://abbeloosschinkels.be 
E-mail 

<!-- 
document.write("<a href=mailto:");document.write(decrypt(unescCtrlCh("5yÿÃ^à(pñ_!13!­[îøû!13!5ãév¦Ãçj|°W"),"Iate1milrve%ster"));document.write(">");document.write(decrypt(unescCtrlCh("5yÿÃ^à(pñ_!13!­[îøû!13!5ãév¦Ãçj|°W"),"Iate1milrve%ster"));document.write("</a>"); 
--> 

、ウェブスクレイピングを行うと、奇妙な結果を取得するとき:

  1. は無効にJavaScriptを使用して、ブラウザでページをチェックしてください。
  2. Webブラウザをシミュレートするユーザーエージェント文字列を送信します。
関連する問題