私は相対パスを含む、<img>
タグからではなく、どこからだけではなく、HTMLからすべて画像を抽出する必要があります。私はこの正規表現を試しました:画像抽出パス
([a-z\-_0-9\/\:\.]*\.(jpg|jpeg|png|gif))
..しかし、それは特別な文字に遭遇して失敗します。例えば、in this caseのようになります。それは、どちらか'
(単一引用符)から開始していない"
(二重引用符)または/
、間にはスペースや画像の拡張子jpg|jpeg|png|gif
で終わるように、私はパスをつかむにはどうすればよい
?
編集:私は可能なDOMパーサを使用しますが、私はちょうど約どこでも、インラインCSSやJSを含むからのパスを抽出するためにここに正規表現を使用する必要があります。
正規表現でHTMLを解析しないでください。代わりに[PHP DOMパーサ](http://simplehtmldom.sourceforge.net/)を使用してください。 –
提案をありがとうが、私はそれを理解し、正規表現を使用する必要があります。私は解析していないデータをマイニングしています。 – 3zzy
lookbehindを悪用して '((?<'' '\ s)* \。(jpg | jpeg | png | gif))'のようなものを試すことができます。シングルまたはダブル)、 - (空白、引用符)を含まず、拡張子の1つで終わります。 – Keelan