2009-07-30 13 views
2

私は、結果のDOMモデルを出力できるように、Webページと関連するJavascriptをコマンドラインから処理する方法を探しています。DOMを出力するコマンドラインWebブラウザ

この目的は、正規表現で不快なHTML(およびJavascript)解析を実行することなく、ページ内のフォームを識別することです。

これを行うコマンドラインツールはありますか?それで、仮説的に言えば、かなりのページを作るのではなく、コンテンツをダウンロードしてDOMをテキストとして出力するコマンドラインWebブラウザです。

答えて

2

私は知らないが、私はあなたが提案したもので1つの難易ハイライトしたい:ときの出力は次のようになり

プロセスのWebページと関連するJavascriptの

を?多くのWebページには時間に敏感なjavascriptやonclick/onhoverスクリプトがあり、DOMに影響します。これらは実行されますか?すべての、またはいくつかだけ?ページが「完了」し、JavaScriptが操作された後にのDOMが出力される準備が完了したときを判断することは自明ではありません。 (JavaScriptの操作の前に、それはより簡単な問題です; document.DOMReadyイベントまで待ってください...)

編集:私はJavaScriptの実行が全く必要ないと言っているわけではありません。あなたが "十分な" javascriptをやったことを知るのは難しいと言っています。...

+0

この場合、「十分に近いほど良い」と思います。私は本当にフォーム要素のベストエフォートリストを与える何かが必要です。 –

2

javaの場合、私はhtmlunitでかなり良い経験をしています。

また、BeautifulSoupのpythonライブラリを使用してフォームとフォームデータを解析しました。 regexpsを指定する必要はありません。多大な労力を要することなく、DOMツリーをトラバースできるようになります。

関連する問題