Webバッチを使用してWeb HTMLページからデータを解析することは可能ですか?Windowsバッチ/ html Webページのデータ解析
のは、私は、Webページを持っているとしましょう:www.domain.com/data/page/1 ページのソースHTML:この場合、
...
<div><a href="/post/view/664654"> ....
....
私は、Webから入手/ポスト/ビュー/ 664654が必要になりますページ。
私のアイデアはwww.domain.com/data/page/1 ...#(特定の番号に)をループして、/ post/viewのすべてを抽出することです。それから私はリンクのリストを持っていて、それらのリンクのそれぞれからhref値(画像やビデオのいずれか)を抽出します。
これまでのところ、私はwgetを使って正確なリンクを知っていれば、イメージやビデオのダウンロードに成功しました。しかし、私はHTMLデータを解析する方法(可能な場合)についてはわかりません。
編集
<body>
<nav>
<section>links I dont need</section>
</nav>
<article>
<section>links I need</section>
</article>
は、私たちが従うことができるのXPathまたはDOM階層を手に入れましたか? divの親はIDを持っていますか?あるいは文書の最初の ''タグでしょうか? [これのようなもの](http://stackoverflow.com/a/29280851/1683264)が良い出発点かもしれません。 – rojo
私は、ドキュメントの任意のタグからhrefコンテンツを抽出する必要があります。だから私はリストを作ることができた。それは可能ですか? – CrazySabbath