Perlを使用してスクリプトタイプhtml/textを抽出する

現在、スクリプトタイプ= "text/html"が指すページを抽出しようとしています。たとえばthis CNN linkのソース内の行をしている：私はpageTemplateのコンテンツをダウンロードし、その結果を解析することができるようにしたいPerlを使用してスクリプトタイプhtml/textを抽出する

<script type="text/html" id="pageTemplate"></script>

。 HTML :: TagParserを使用しようとしていて、pageTemplate要素を取得できましたが、内容を取得できません。

出典

2012-04-26 brendan

これはおそらく[icanhaz.js]（http://icanhazjs.com/）などのようなものを使用しているため、スクリプトは一部のテンプレートシステムによって読み込まれ、解釈されます。 –

"pageTemplate"には内容がありません。おそらく、それはいくつかのhtmlの隠しとして使われるだろうからです。タイプ "text/html"のスクリプトは実際にはdoとは何もしません。つまり、<script>のように、表示されていないDOM要素はどのような目的にも使用できます。

一つの可能性：そのIDが使用されているものについての手がかりをCNNのページに関連付けられたJavaScriptスルーhttp://ejohn.org/blog/javascript-micro-templating/

ルック。

出典

2012-04-26 21:23:16 delicateLatticeworkFever

FireBugを使ってビデオの上にあるタイトル（「Student Loan ...」）を調べると、私はそのIDが使用されていると思うものを特定することができます。私の質問は、私はURLを持っている場合、私はこの情報にアクセスする方法です。 – brendan

LWP :: UserAgentまたはWWW :: Mechanizeを使用できます。たとえば、Firebugで "Net"を有効にしてページの負荷を監視するなど、リクエストの正確な性質を把握する必要があります。関連するクッキーなどがある可能性があります。 – delicateLatticeworkFever

Perlを使用してスクリプトタイプhtml/textを抽出する

答えて

関連する問題