4
ウェブページのコンテンツをCURL
またはfile_get_contents
でキャプチャする場合、インラインjavascripコードを削除する最も簡単な方法は何ですか?私はタグの間のすべてを削除する正規表現を考えています。正規表現はこの目的のための信頼できる方法ではありません。ウェブページの解析時にJavaScriptコードを削除する
(JavaScriptコードを削除するだけで)HTMLページを解析するより良い方法はありますか?正規表現が依然として最良の選択肢であれば、最も信頼できるコマンドは何ですか?
正規表現よりも遅いのでDOMを避けていましたが、ここでは多くの解析関数は必要ありません。しかし、それはあまりにも(そして、必要な)小さな構文解析のために非常に信頼できるようです! – Googlebot
より高速で信頼性が低いか、遅く信頼性が高いですか?永遠の疑問。 –
信頼性を優先してスピードを犠牲にすることだけではありません。 DOMDocumentはHTMLページを単純に解析するのではなく、ほとんどの場合、大量のエラーが返されます。たとえば、現在のページのhtmlコードをindex.htmlとして保存し、上記のコードを実行します。 "DOMDocument :: load():オープンとエンディングのタグの不一致"のエラーが多く返されます... – Googlebot