0
私は正常にURLを解析し、必要なだけp、img、およびタグをvar $ contentに返すhtmlスクレーパーを構築しています。PHPでhtmlタグで囲まれていないコンテンツ/テキストを削除します。
はしかし、特定のURLはHTMLで誤っJavaScriptを配置してしまうので、私の$コンテンツvarが含まれています。私はがHTMLに包まれていない任意のコンテンツを削除するにはどうすればよい
<p>This is Paragraph 1</p>
<p>This is Paragraph 2</p>
<img src="/Path/To/Img">
";document.getElementById('Rogue Broken Javascript Text.14155741')
<p>This is Paragraph 3</p>
タグ? (。すなわちstrip_tags()
の逆の一種)ので、私はちょうどで終わる:
<p>This is Paragraph 1</p>
<p>This is Paragraph 2</p>
<img src="/Path/To/Img">
<p>This is Paragraph 3</p>
あなたはこれまでのコードを少なくとも表示できますか? DOMを解析するために正規表現を使用していますか? –
私は正規表現を使用していません。 var $ contentには、引用符で囲まれたHTMLが含まれます。 ** htmlタグで**ない**が削除されるように、それをサニタイズしたい。 – JS77