0
Xidelを使用してBingまたはGoogle画像検索をクエリし、その検索の画像のURLリンクをすべて抽出する方法はありますか?私はXidel.EXEを使ってコマンドラインでこれを行うことに興味がありました。おかげでBingやGoogle検索からJPG URLを抽出する
K
Xidelを使用してBingまたはGoogle画像検索をクエリし、その検索の画像のURLリンクをすべて抽出する方法はありますか?私はXidel.EXEを使ってコマンドラインでこれを行うことに興味がありました。おかげでBingやGoogle検索からJPG URLを抽出する
K
確かに。あなたはXidelを見つけました。偉大なcmdlineスクレーパー、しかし、ごく少数の人々がそれについて知っているようです。ここ は、グーグル・画像の100「犬」の画像のURLを掻き取るonelinerだ:
xidel -s "https://images.google.com"^
--user-agent="Mozilla/5.0 (Windows NT 6.1; WOW64;) Firefox/40"^
-f "form(//form,{'q':'dogs'})"^
-e "<div class='rg_meta'>{extract(.,'ou.:.(.+?).,',1)}</div>*"
はところで、Googleが実際にあなたがAPIKEYを要求できるため、あなたはそれらのAPIを使用したいが、上記のコマンドはちょうどふりブラウザであること。
また、最後に--downloadを追加すると、すべての写真がダウンロードされます。 :-)
抽出クエリのためには、// div [@ class = 'rg_meta']/json(。)/ ou'を使用するか、 rg_meta '] json($ x)/ ou'を返します。 – Reino
でも、Reinoの抽出クエリは短く、理解しやすく、おそらくRegEx解析より高速です。 Xidelの大きな点は、組み合わせることができるような多くのクエリ言語を知っている(そして追加する)ため、多くの方法があることです。 XPath/XQuery/RegEx(テキスト)/ Jsonic/CSS。私が知る限り、このすべてを1つのライナーで実行できる他のプログラミング言語やツールはありません。これは、非常に多くの入出力形式を知っているので、PowerShell/bashでも非常に便利なので、パイプに入れることができます。 – MatrixView