HTMLページがあると、HTMLファイルに埋め込まれている、またはリンクされている 'x'ファイルをすべて取得したいと考えています。 'x'はHTMLページ(任意の言語)からマルチメディアファイルを解析する
私はどのように- 画像(JPG、PNG、GIF ...)
- 文書(ワード、パワーポイント、PDF ...)
- フラッシュ(のFLV、swfファイル)
これを行う?
- だから画像は、彼らがいずれかで終わるリンクとにリンクされているので、抽出しやすい(.PNG | .JPG | ....)、またはそれらはimgタグが埋め込まれています。
- ドキュメントを埋め込むことはできません。ドキュメントはリンクできます(リンクは.doc | .ppt | .pdf | ...)。だから、彼らはまた簡単に得ることができます。ここで
私の問題である:
は、どのように私はWebページに埋め込まれたFlashファイルを入手できますか?
私に擬似アルゴリズムまたは正規表現のパターンを与えてください。
上記の私の指摘(1.と2.)に間違っている場合は、教えてください。
ありがとうございます!