Q

HTMLページ（任意の言語）からマルチメディアファイルを解析する

2009-07-09 13 views 0 likes

0

HTMLページがあると、HTMLファイルに埋め込まれている、またはリンクされている 'x'ファイルをすべて取得したいと考えています。 'x'はHTMLページ（任意の言語）からマルチメディアファイルを解析する

私はどのように

画像（JPG、PNG、GIF ...）
文書（ワード、パワーポイント、PDF ...）
フラッシュ（のFLV、swfファイル）

これを行う？

だから画像は、彼らがいずれかで終わるリンクとにリンクされているので、抽出しやすい（.PNG | .JPG | ....）、またはそれらはimgタグが埋め込まれています。
ドキュメントを埋め込むことはできません。ドキュメントはリンクできます（リンクは.doc | .ppt | .pdf | ...）。だから、彼らはまた簡単に得ることができます。ここで

私の問題である：

は、どのように私はWebページに埋め込まれたFlashファイルを入手できますか？

私に擬似アルゴリズムまたは正規表現のパターンを与えてください。

上記の私の指摘（1.と2.）に間違っている場合は、教えてください。

ありがとうございます！

2009-07-09 quilby

A

答えて

0

Firefoxの拡張子DownThemAllを使用すると、ページを右クリックして、指定した拡張子のすべてのメディアをダウンロードできます。オープンソースなので、コードを見て、実装した方法を見たいと思うかもしれません。

2009-07-09 16:48:36

0

私はイベントベースのXMLパーサー（SAXのような）を使用して、とタグのルールを記述してsrc属性とhref属性を取得します。

2009-07-09 16:53:57 fortran

関連する問題