2012-04-26 6 views
1

現在、スクリプトタイプ= "text/html"が指すページを抽出しようとしています。たとえばthis CNN linkのソース内の行をしている:私はpageTemplateのコンテンツをダウンロードし、その結果を解析することができるようにしたいPerlを使用してスクリプトタイプhtml/textを抽出する

<script type="text/html" id="pageTemplate"></script> 

。 HTML :: TagParserを使用しようとしていて、pageTemplate要素を取得できましたが、内容を取得できません。

+3

これはおそらく[icanhaz.js](http://icanhazjs.com/)などのようなものを使用しているため、スクリプトは一部のテンプレートシステムによって読み込まれ、解釈されます。 –

答えて

3

"pageTemplate"には内容がありません。おそらく、それはいくつかのhtmlの隠しとして使われるだろうからです。タイプ "text/html"のスクリプトは実際にはdoとは何もしません。つまり、<script>のように、表示されていないDOM要素はどのような目的にも使用できます。

一つの可能​​性:そのIDが使用されているものについての手がかりをCNNのページに関連付けられたJavaScriptスルーhttp://ejohn.org/blog/javascript-micro-templating/

ルック。

+0

FireBugを使ってビデオの上にあるタイトル(「Student Loan ...」)を調べると、私はそのIDが使用されていると思うものを特定することができます。私の質問は、私はURLを持っている場合、私はこの情報にアクセスする方法です。 – brendan

+0

LWP :: UserAgentまたはWWW :: Mechanizeを使用できます。たとえば、Firebugで "Net"を有効にしてページの負荷を監視するなど、リクエストの正確な性質を把握する必要があります。関連するクッキーなどがある可能性があります。 – delicateLatticeworkFever

関連する問題