2012-01-17 12 views
8

私はHTML DomObjectを使ってWebページを解析して、アプリケーションでSEO品質をスキャンするために使っています。PHP DomDocumentがあなたのHTML文字列を「修正」しないようにする方法

しかし私は問題のabitに遭遇しました。私は、以下の不正なHTML含む小さなHTMLページに書いたテストの目的のために:あなたはタイトルが頭タグウィッヒ外で見ることができるように

<head> 
<meta name="description" content="randomdesciption"> 
</head> 
<title>sometitle</title> 

を私が検出しようとしていますエラーです。

カールを使用してこのページからレスポンス文字列を取得し、domドキュメントに送信してHTMLとして読み込むと問題が発生します。実際には、タイトルの周りに別のタグを追加することでこれを修正します。

<head> 
<meta name="description" content="randomdesciption"> 
</head> 
<head><title>sometitle</title></head> 

私はカールresponceデータをチェックしてInfactは問題ではないことをしている、loadHTML()メソッドの実行中に何らかの形でのPHPのDOMDocumentは、HTML構文を修正します。

また、DomDocumentのrecover、substituteEntities、およびvalidateOnParse属性を無効にしてfalseに設定して無効にしてみました。

私はGoogleを検索していますが、私はこれまでの回答を見つけることができません。私は実際に壊れたHTMLが修正されないことを望む人にとってはまれなことだと思います。

DomDocumentが壊れたHTMLを修正するのを防ぐ方法を知っていますか?事前に

おかげ

+0

は、あなたがそれを渡す前に、[きちんと](http://php.net/tidy)を通して、あなたのマークアップを実行している検討していますDOMの代わりに、あるいはDOMの代わりに?これは、マークアップエラーを検出するのに便利な拡張機能です。 – TML

+0

注:この動作は実際にはHTMLで指定されたとおりです: ''にはオプションの開始タグと終了タグがあり、 ''のようなヘッドのみの要素が存在することによって暗示されます。 '<title>'開始タグが省略された '<head>'要素内にあるものとして解析されます。メモリに読み込まれると、DOMはドキュメントのセマンティクスの一部ではないので、ソースに存在するオプションのタグを保持しないので、常に存在として出力されます。 HTML_PARSE_NO_IMPLIEDを使用すると、有効なHTML文書の解釈方法に副作用が生じることがあります。 – <span class="text-secondary"> <small> <a rel="noopener" target="_blank" href="https://stackoverflow.com/users/53212/">thomasrutter</a></span> <span></span> </small> </span> </p> </div> </div> </div> </div> </div> </article> </div> <div class="answer-title"> <span class="text-logo margin-top-sm">A</span> <h2 class="title h4">答えて</h2> </div> <div class="item-description text-md markdown-body margin-bottom-40 voidso"> <article class="board-top-1 padding-top-10"> <div class="post-col vote-info"> <span class="count">7<i class="fa fa-thumbs-up"></i></span> <i class="fa fa-check fa-2x"></i> </div> <div class="post-offset"> <div class="answer fmt"> <p>UPDATE:PHP 5.4のようあなたはカント</p> <p>以下<a href="http://php.net/manual/en/libxml.constants.php#constant.libxml-html-noimplied" rel="nofollow noreferrer"><code class="prettyprint-override">HTML_PARSE_NO_IMPLIED</code></a></p> <pre><code class="prettyprint-override">$dom->loadHTML($html, LIBXML_HTML_NOIMPLIED); </code></pre> <hr> <p><em>オリジナルの答えを使用することができます。理論的には<a href="http://xmlsoft.org/html/libxml-HTMLparser.html" rel="nofollow noreferrer">there is a flag <code class="prettyprint-override">HTML_PARSE_NO_IMPLIED</code> for that in libxml</a>は暗黙のマークアップの追加を防ぎますが、PHPからはアクセスできません。</em></p> <em> <p>脇の下に、この特定の動作は、使用される<code class="prettyprint-override">LIBXML_VERSION</code>に依存するようです。</p> <p>このスニペットの実行:私のマシンで</p> <pre><code class="prettyprint-override"><?php $html = <<< HTML <head> <meta name="description" content="randomdesciption"> </head> <title>sometitle</title> HTML; $dom = new DOMDocument; $dom->loadHTML($html); $dom->formatOutput = true; echo $dom->saveHTML(), LIBXML_VERSION; </code></pre> <p>が得られますが</p> <pre><code class="prettyprint-override"><!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN" "http://www.w3.org/TR/REC-html40/loose.dtd"> <html> <head><meta name="description" content="randomdesciption"></head> <title>sometitle</title> </html> 20707 </code></pre></em> </div> <div class="post-info"> <div class="post-meta row"> <p class="text-secondary col-lg-6"> <span class="source"> <a rel="noopener" target="_blank" href="https://stackoverflow.com/q/8893537">出典</a> </span> </p> <p class="text-secondary col-lg-6"> <span class="float-right date"> <span>2012-01-17 11:06:13</span> <a rel="noopener" target="_blank" href="https://stackoverflow.com/users/208809/">Gordon</a></span> </p> <p class="col-12"></p> <p class="col-12"></p></div> </div> <!-- comments --> <div class="comments"> <div itemprop="comment" class="post-comment"> <div class="row"> <div class="col-lg-1"><span class="text-secondary">+1</span></div> <div class="col-lg-11"> <p class="commenttext">それは私が望んでいたものではありませんが、少なくとも私は単純にそこにない何かを探すのを止めることができます。最も有益な助けをいただきありがとうございます。 – <span class="text-secondary"> <small> <span></span> </small> </span> </p> </div> </div> </div> <div itemprop="comment" class="post-comment"> <div class="row"> <div class="col-lg-1"><span class="text-secondary">+5</span></div> <div class="col-lg-11"> <p class="commenttext">これはPHP v5.4 +で、[loadhtml](http://php.net/manual/en/domdocument.loadhtml.php)メソッドの2番目のパラメータ 'options'を使用して利用できるようになりました。 – <span class="text-secondary"> <small> <span></span> </small> </span> </p> </div> </div> </div> </div> </div> </article> <div> <script async src="https://pagead2.googlesyndication.com/pagead/js/adsbygoogle.js"></script> <ins class="adsbygoogle" style="display:block" data-ad-client="ca-pub-6208739752673518" data-ad-slot="1038284119" data-ad-format="auto" data-full-width-responsive="true"></ins> <script> (adsbygoogle = window.adsbygoogle || []).push({}); </script> </div> </div> <div class="clearfix"> </div> <div class="relative-box"> <div class="relative">関連する問題</div> <ul class="relative_list"> <li> 1. <a href="http://ja.uwenku.com/question/p-shvvapfb-oz.html" target="_blank" title="PHP DOMDocument saveHTML正しくキリル文字をエンコードしない"> PHP DOMDocument saveHTML正しくキリル文字をエンコードしない </a> </li> <li> 2. <a href="http://ja.uwenku.com/question/p-zsgvkggj-od.html" target="_blank" title="jQuery 1.10.2 Uncaughtを修正する方法SyntaxError:予期しない文字列"> jQuery 1.10.2 Uncaughtを修正する方法SyntaxError:予期しない文字列 </a> </li> <li> 3. <a href="http://ja.uwenku.com/question/p-ncpeaiwr-cu.html" target="_blank" title="修正文字列、PHP"> 修正文字列、PHP </a> </li> <li> 4. <a href="http://ja.uwenku.com/question/p-rmdpqpfz-nn.html" target="_blank" title="どのように修正するために、文字列"> どのように修正するために、文字列 </a> </li> <li> 5. <a href="http://ja.uwenku.com/question/p-secmkfia-dp.html" target="_blank" title="文字列を表示しないようにする方法エンコーディングHTMLタグ"> 文字列を表示しないようにする方法エンコーディングHTMLタグ </a> </li> <li> 6. <a href="http://ja.uwenku.com/question/p-arckblvr-ma.html" target="_blank" title="不正な形式のJSON文字列にPHPの修正が必要"> 不正な形式のJSON文字列にPHPの修正が必要 </a> </li> <li> 7. <a href="http://ja.uwenku.com/question/p-nntxzdlw-hu.html" target="_blank" title="+ =演算子がフリーズした文字列を修正するようです"> + =演算子がフリーズした文字列を修正するようです </a> </li> <li> 8. <a href="http://ja.uwenku.com/question/p-sbbopyxb-c.html" target="_blank" title="'mccdougal'のような文字列を 'McDougal'に正しくフォーマットする方法"> 'mccdougal'のような文字列を 'McDougal'に正しくフォーマットする方法 </a> </li> <li> 9. <a href="http://ja.uwenku.com/question/p-phgancvu-ey.html" target="_blank" title="ATOMのようなIDEをHTMLのようなJavaScript文字列のテンプレートHTMLに関連付ける方法は?"> ATOMのようなIDEをHTMLのようなJavaScript文字列のテンプレートHTMLに関連付ける方法は? </a> </li> <li> 10. <a href="http://ja.uwenku.com/question/p-trzdnqnx-h.html" target="_blank" title="Javaスキャナがゼロ長文字列を返さないように正規表現を修正する"> Javaスキャナがゼロ長文字列を返さないように正規表現を修正する </a> </li> <div> <script async src="https://pagead2.googlesyndication.com/pagead/js/adsbygoogle.js"></script> <ins class="adsbygoogle" style="display:block; text-align:center;" data-ad-layout="in-article" data-ad-format="fluid" data-ad-client="ca-pub-6208739752673518" data-ad-slot="4606349252"></ins> <script> (adsbygoogle = window.adsbygoogle || []).push({}); </script> </div> <li> 11. <a href="http://ja.uwenku.com/question/p-pzqnzfrv-gd.html" target="_blank" title="のDOMDocumentこのようなPHP とHTMLファイルから行を削除するPHP"> のDOMDocumentこのようなPHP とHTMLファイルから行を削除するPHP </a> </li> <li> 12. <a href="http://ja.uwenku.com/question/p-zmievriy-no.html" target="_blank" title="一時的なリストで文字列を修正するPythonicの方法"> 一時的なリストで文字列を修正するPythonicの方法 </a> </li> <li> 13. <a href="http://ja.uwenku.com/question/p-qbidmxfg-nu.html" target="_blank" title="PHPで正確なプリセットJSON文字列を返す方法は?"> PHPで正確なプリセットJSON文字列を返す方法は? </a> </li> <li> 14. <a href="http://ja.uwenku.com/question/p-suoujodj-oc.html" target="_blank" title="が、私はこのような文字列があると、長い文字列のPHP"> が、私はこのような文字列があると、長い文字列のPHP </a> </li> <li> 15. <a href="http://ja.uwenku.com/question/p-bgrnoxex-gn.html" target="_blank" title="修正サイズのクラス名文字列を取得する方法"> 修正サイズのクラス名文字列を取得する方法 </a> </li> <li> 16. <a href="http://ja.uwenku.com/question/p-gokyycgz-pw.html" target="_blank" title="修正する方法キーワードの近くの構文が正しくない '"> 修正する方法キーワードの近くの構文が正しくない ' </a> </li> <li> 17. <a href="http://ja.uwenku.com/question/p-wtjghkru-om.html" target="_blank" title="PHPが文字列にバックスラッシュを追加しないようにします"> PHPが文字列にバックスラッシュを追加しないようにします </a> </li> <li> 18. <a href="http://ja.uwenku.com/question/p-yqibolbk-mk.html" target="_blank" title="別の文字列に文字列を挿入する簡単な方法 - PHP"> 別の文字列に文字列を挿入する簡単な方法 - PHP </a> </li> <li> 19. <a href="http://ja.uwenku.com/question/p-eghgdzdo-cr.html" target="_blank" title="PHP:__constructの文字列パラメータが正しく渡されない"> PHP:__constructの文字列パラメータが正しく渡されない </a> </li> <li> 20. <a href="http://ja.uwenku.com/question/p-okdjpnme-ho.html" target="_blank" title="Javaで文字列出力を修正する方法:[email protected]"> Javaで文字列出力を修正する方法:[email protected] </a> </li> <li> 21. <a href="http://ja.uwenku.com/question/p-hrneymgp-nt.html" target="_blank" title="文字列インデックス範囲外のエラー:修正する方法?"> 文字列インデックス範囲外のエラー:修正する方法? </a> </li> <li> 22. <a href="http://ja.uwenku.com/question/p-wafzeoyl-ct.html" target="_blank" title="PHPのdomdocumentが正しく解析されない"> PHPのdomdocumentが正しく解析されない </a> </li> <li> 23. <a href="http://ja.uwenku.com/question/p-xwkskgsy-hn.html" target="_blank" title="Perlの正規表現のような文字列をエスケープする方法"> Perlの正規表現のような文字列をエスケープする方法 </a> </li> <li> 24. <a href="http://ja.uwenku.com/question/p-ayplmibj-ke.html" target="_blank" title="Laravel "誤ってエンコードされた不正なUTF-8文字"を修正する方法はありますか?"> Laravel "誤ってエンコードされた不正なUTF-8文字"を修正する方法はありますか? </a> </li> <li> 25. <a href="http://ja.uwenku.com/question/p-tsxphvjl-pq.html" target="_blank" title="オブジェクトコンテキストPHPにないときに$ thisを使う - 修正する方法?"> オブジェクトコンテキストPHPにないときに$ thisを使う - 修正する方法? </a> </li> <li> 26. <a href="http://ja.uwenku.com/question/p-nnkpcdqy-gd.html" target="_blank" title="このエラーメッセージの修正方法:構文エラー、予期しない '['"> このエラーメッセージの修正方法:構文エラー、予期しない '[' </a> </li> <li> 27. <a href="http://ja.uwenku.com/question/p-zlppokpa-s.html" target="_blank" title="Python:スクリーンに印刷された文字列を修正/編集する方法"> Python:スクリーンに印刷された文字列を修正/編集する方法 </a> </li> <li> 28. <a href="http://ja.uwenku.com/question/p-aclprquw-kd.html" target="_blank" title="それを修正しようとしている文字列照合アルゴリズム"> それを修正しようとしている文字列照合アルゴリズム </a> </li> <li> 29. <a href="http://ja.uwenku.com/question/p-dvydyaml-gc.html" target="_blank" title="RestControllerがjson文字列を正しく扱えるようにする方法"> RestControllerがjson文字列を正しく扱えるようにする方法 </a> </li> <li> 30. <a href="http://ja.uwenku.com/question/p-dobvrnri-db.html" target="_blank" title="PHP DOMDocument:不思議な文字で窒息するloadHTMLFile:RS"> PHP DOMDocument:不思議な文字で窒息するloadHTMLFile:RS </a> </li> </ul> </div> <div> <script async src="https://pagead2.googlesyndication.com/pagead/js/adsbygoogle.js"></script> <ins class="adsbygoogle" style="display:block" data-ad-format="autorelaxed" data-ad-client="ca-pub-6208739752673518" data-ad-slot="1575177025"></ins> <script> (adsbygoogle = window.adsbygoogle || []).push({}); </script> </div> <div class="padding-top-10"></div> </div> </div> <script type="text/javascript" src="http://img.uwenku.com/uwenku/script/side.js?t=1644592048742"></script> <script type="text/javascript" src="http://img.uwenku.com/uwenku/plugin/highlight/highlight.pack.js"></script> <link href="http://img.uwenku.com/uwenku/plugin/highlight/styles/docco.css" media="screen" rel="stylesheet" type="text/css" /> <script type="text/javascript"> $('pre').each(function(i, e) { hljs.highlightBlock(e, "<span class='indent'> </span>", false) }); </script> <div class="col-lg-3 col-md-4 col-sm-5"> <div id="rightTop"> <div class="row"> <script async src="https://pagead2.googlesyndication.com/pagead/js/adsbygoogle.js"></script> <ins class="adsbygoogle" style="display:block" data-ad-client="ca-pub-6208739752673518" data-ad-slot="5415218910" data-ad-format="auto" data-full-width-responsive="true"></ins> <script> (adsbygoogle = window.adsbygoogle || []).push({}); </script> </div> <div class="row sidebar panel panel-default"> <div class="panel-heading font-bold"> 最新の質問 </div> <div class="m-b-sm m-t-sm clearfix"> <ul class="side_article_list"> <li class="side_article_list_item"> 1. <a href="http://ja.uwenku.com/question/p-utewrrgs-kw.html" target="_blank" title="値がなくても関数が返りません。なし"> 値がなくても関数が返りません。なし </a> </li> <li class="side_article_list_item"> 2. <a href="http://ja.uwenku.com/question/p-hvwgjqbg-me.html" target="_blank" title="ggplot2のN/A値を外して外れ値を削除しない"> ggplot2のN/A値を外して外れ値を削除しない </a> </li> <li class="side_article_list_item"> 3. <a href="http://ja.uwenku.com/question/p-wwrpztwn-ks.html" target="_blank" title="getNumericValueを使用する場合"> getNumericValueを使用する場合 </a> </li> <li class="side_article_list_item"> 4. <a href="http://ja.uwenku.com/question/p-wrmbtprh-kt.html" target="_blank" title="Xamarinフォームのテキストファイルからの読み込み結果がNullです"> Xamarinフォームのテキストファイルからの読み込み結果がNullです </a> </li> <li class="side_article_list_item"> 5. <a href="http://ja.uwenku.com/question/p-twmudwci-kc.html" target="_blank" title="同じrecyclerViewに2人の異なるarraylistsのアイテムを表示するにはどうすればいいですか?"> 同じrecyclerViewに2人の異なるarraylistsのアイテムを表示するにはどうすればいいですか? </a> </li> </ul> </div> </div> </div> <p class="article-nav-bar"></p> <div class="row sidebar article-nav"> <div class="row box_white visible-sm visible-md visible-lg margin-zero"> <div class="top"> <h3 class="title"><i class="glyphicon glyphicon-th-list"></i> 関連する問題</h3> </div> <div class="article-relative-content"> <ul class="side_article_list"> <li class="side_article_list_item"> 1. <a href="http://ja.uwenku.com/question/p-shvvapfb-oz.html" target="_blank" title="PHP DOMDocument saveHTML正しくキリル文字をエンコードしない"> PHP DOMDocument saveHTML正しくキリル文字をエンコードしない </a> </li> <li class="side_article_list_item"> 2. <a href="http://ja.uwenku.com/question/p-zsgvkggj-od.html" target="_blank" title="jQuery 1.10.2 Uncaughtを修正する方法SyntaxError:予期しない文字列"> jQuery 1.10.2 Uncaughtを修正する方法SyntaxError:予期しない文字列 </a> </li> <li class="side_article_list_item"> 3. <a href="http://ja.uwenku.com/question/p-ncpeaiwr-cu.html" target="_blank" title="修正文字列、PHP"> 修正文字列、PHP </a> </li> <li class="side_article_list_item"> 4. <a href="http://ja.uwenku.com/question/p-rmdpqpfz-nn.html" target="_blank" title="どのように修正するために、文字列"> どのように修正するために、文字列 </a> </li> <li class="side_article_list_item"> 5. <a href="http://ja.uwenku.com/question/p-secmkfia-dp.html" target="_blank" title="文字列を表示しないようにする方法エンコーディングHTMLタグ"> 文字列を表示しないようにする方法エンコーディングHTMLタグ </a> </li> <li class="side_article_list_item"> 6. <a href="http://ja.uwenku.com/question/p-arckblvr-ma.html" target="_blank" title="不正な形式のJSON文字列にPHPの修正が必要"> 不正な形式のJSON文字列にPHPの修正が必要 </a> </li> <li class="side_article_list_item"> 7. <a href="http://ja.uwenku.com/question/p-nntxzdlw-hu.html" target="_blank" title="+ =演算子がフリーズした文字列を修正するようです"> + =演算子がフリーズした文字列を修正するようです </a> </li> <li class="side_article_list_item"> 8. <a href="http://ja.uwenku.com/question/p-sbbopyxb-c.html" target="_blank" title="'mccdougal'のような文字列を 'McDougal'に正しくフォーマットする方法"> 'mccdougal'のような文字列を 'McDougal'に正しくフォーマットする方法 </a> </li> <li class="side_article_list_item"> 9. <a href="http://ja.uwenku.com/question/p-phgancvu-ey.html" target="_blank" title="ATOMのようなIDEをHTMLのようなJavaScript文字列のテンプレートHTMLに関連付ける方法は?"> ATOMのようなIDEをHTMLのようなJavaScript文字列のテンプレートHTMLに関連付ける方法は? </a> </li> <li class="side_article_list_item"> 10. <a href="http://ja.uwenku.com/question/p-trzdnqnx-h.html" target="_blank" title="Javaスキャナがゼロ長文字列を返さないように正規表現を修正する"> Javaスキャナがゼロ長文字列を返さないように正規表現を修正する </a> </li> </ul> </div> </div> </div> </div> </div> </div> </div><!-- wrap end--> <!-- footer --> <footer id="footer"> <div class="bg-simple lt"> <div class="container"> <div class="row padder-v m-t"> <div class="col-xs-8"> <ul class="list-inline"> <li><a href="http://ja.uwenku.com/contact">お問い合わせ</a></li> <li>© 2020 JA.UWENKU.COM</li> <li><a target="_blank" href="https://beian.miit.gov.cn/">沪ICP备13005482号-4</a></li> <li><script type="text/javascript" src="https://v1.cnzz.com/z_stat.php?id=1280101193&web_id=1280101193"></script></li> <li><a href="http://www.uwenku.com/" target="_blank" title="优文库">简体中文</a></li> <li><a href="http://hk.uwenku.com/" target="_blank" title="優文庫">繁體中文</a></li> <li><a href="http://ru.uwenku.com/" target="_blank" title="поле вопросов и ответов">Русский</a></li> <li><a href="http://de.uwenku.com/" target="_blank" title="Frage - und - antwort - Park">Deutsch</a></li> <li><a href="http://es.uwenku.com/" target="_blank" title="Preguntas y respuestas">Español</a></li> <li><a href="http://hi.uwenku.com/" target="_blank" title="कार्यक्रम प्रश्न और उत्तर पार्क">हिन्दी</a></li> <li><a href="http://it.uwenku.com/" target="_blank" title="IL Programma di chiedere Park">Italiano</a></li> <li><a href="http://ja.uwenku.com/" target="_blank" title="プログラム問答園区">日本語</a></li> <li><a href="http://ko.uwenku.com/" target="_blank" title="프로그램 문답 단지">한국어</a></li> <li><a href="http://pl.uwenku.com/" target="_blank" title="program o park">Polski</a></li> <li><a href="http://tr.uwenku.com/" target="_blank" title="Program soru ve cevap parkı">Türkçe</a></li> <li><a href="http://vi.uwenku.com/" target="_blank" title="Đáp ứng viên">Tiếng Việt</a></li> <li><a href="http://fr.uwenku.com/" target="_blank" title="Programme interrogation Park">Française</a></li> </ul> </div> </div> </div> </div> </div> </footer> <!-- / footer --> <script> var _hmt = _hmt || []; (function() { var hm = document.createElement("script"); hm.src = "https://hm.baidu.com/hm.js?f78a970f17b19a79fc477a3378096f29"; var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(hm, s); })(); </script> </body> </html>