2016-12-21 5 views
0

Xidelを使用してBingまたはGoogle画像検索をクエリし、その検索の画像のURLリンクをすべて抽出する方法はありますか?私はXidel.EXEを使ってコマンドラインでこれを行うことに興味がありました。おかげでBingやGoogle検索からJPG URLを抽出する

K

答えて

1

確かに。あなたはXidelを見つけました。偉大なcmdlineスクレーパー、しかし、ごく少数の人々がそれについて知っているようです。ここ は、グーグル・画像の100「犬」の画像のURLを掻き取るonelinerだ:

xidel -s "https://images.google.com"^
     --user-agent="Mozilla/5.0 (Windows NT 6.1; WOW64;) Firefox/40"^
     -f "form(//form,{'q':'dogs'})"^
     -e "<div class='rg_meta'>{extract(.,'ou.:.(.+?).,',1)}</div>*" 

はところで、Googleが実際にあなたがAPIKEYを要求できるため、あなたはそれらのAPIを使用したいが、上記のコマンドはちょうどふりブラウザであること。

また、最後に--downloadを追加すると、すべての写真がダウンロードされます。 :-)

+0

抽出クエリのためには、// div [@ class = 'rg_meta']/json(。)/ ou'を使用するか、 rg_meta '] json($ x)/ ou'を返します。 – Reino

+0

でも、Reinoの抽出クエリは短く、理解しやすく、おそらくRegEx解析より高速です。 Xidelの大きな点は、組み合わせることができるような多くのクエリ言語を知っている(そして追加する)ため、多くの方法があることです。 XPath/XQuery/RegEx(テキスト)/ Jsonic/CSS。私が知る限り、このすべてを1つのライナーで実行できる他のプログラミング言語やツールはありません。これは、非常に多くの入出力形式を知っているので、PowerShell/bashでも非常に便利なので、パイプに入れることができます。 – MatrixView

関連する問題