2012-04-26 19 views
2

私はNokogiriと解析したいHTMLを持っていますが、それが完全なHTML文書(DOCTYPEなど)であるか断片であるかはわかりません(例えば、その中のいくつかの要素を持つdivだけ)。Nokogiriが#fragmentか#parseを使用するかどうかを決定する

Nokogiriはフラグメントを解析するのに#fragmentを使用しますが、完全なドキュメントを解析するには#parseを使用する必要があるため、Nokogiriに違いがあります。

特定のテキストがフラグメントか完全なHTMLドキュメントかを判断する方法はありますか?

デニス

+0

どちらの場合でも構文解析を使用する理由があります。それはちょうどあなたのhtmlで文書を構築し、あなたは簡単にxpathを使用することができるようになります。 – pguardiario

答えて

0

最も簡単な方法は、例えば、正規表現/<html[\s>])/(許可属性)を使用して、必須<html>タグを探すことになります。

問題を解決するにはこれで十分ですか?

+1

HTML5では ''タグは必須ではありません。たとえば、http://mathiasbynens.be/notes/minimal-htmlを参照してください。 「」または「<body>」タグが適切かもしれません。 – <span class="text-secondary"> <small> <a rel="noopener" target="_blank" href="https://stackoverflow.com/users/405017/">Phrogz</a></span> <span></span> </small> </span> </p> </div> </div> </div> <div itemprop="comment" class="post-comment"> <div class="row"> <div class="col-lg-1"><span class="text-secondary">+1</span></div> <div class="col-lg-11"> <p class="commenttext">参照された記事によると、タイトルタグも必須ではなく、どちらもボディです。 – <span class="text-secondary"> <small> <span></span> </small> </span> </p> </div> </div> </div> <div itemprop="comment" class="post-comment"> <div class="row"> <div class="col-lg-1"><span class="text-secondary">+0</span></div> <div class="col-lg-11"> <p class="commenttext">いいえ、「<title>」タグが必要でない場合は非常にありません。ボディコンテンツがない場合は、「<body>」タグは省略することができます(別の状況ではありません)。 – <span class="text-secondary"> <small> <a rel="noopener" target="_blank" href="https://stackoverflow.com/users/405017/">Phrogz</a></span> <span></span> </small> </span> </p> </div> </div> </div> </div> </div> </article> <div> <script async src="https://pagead2.googlesyndication.com/pagead/js/adsbygoogle.js"></script> <ins class="adsbygoogle" style="display:block" data-ad-client="ca-pub-6208739752673518" data-ad-slot="1038284119" data-ad-format="auto" data-full-width-responsive="true"></ins> <script> (adsbygoogle = window.adsbygoogle || []).push({}); </script> </div> <article class="board-top-1 padding-top-10"> <div class="post-col vote-info"> <span class="count">2<i class="fa fa-thumbs-up"></i></span> </div> <div class="post-offset"> <div class="answer fmt"> <p>は、あなたのページがあるゴミ箱方法によって異なりますが、</p> <pre><code class="prettyprint-override">/^(?:\s*<!DOCTYPE)|(?:\s*<html)/ </code></pre> <p>は、ほとんどのケースで動作するはずです。</p> </div> <div class="post-info"> <div class="post-meta row"> <p class="text-secondary col-lg-6"> <span class="source"> <a rel="noopener" target="_blank" href="https://stackoverflow.com/q/10329847">出典</a> </span> </p> <p class="text-secondary col-lg-6"> <span class="float-right date"> <span>2012-04-26 08:35:28</span> <a rel="noopener" target="_blank" href="https://stackoverflow.com/users/411944/">Reactormonk</a></span> </p> <p class="col-12"></p> <p class="col-12"></p></div> </div> </div> </article> </div> <div class="clearfix"> </div> <div class="relative-box"> <div class="relative">関連する問題</div> <ul class="relative_list"> <li> 1. <a href="http://ja.uwenku.com/question/p-faditsci-es.html" target="_blank" title="Androidアプリケーションがネットワークプロキシを使用するかどうかを決定する方法"> Androidアプリケーションがネットワークプロキシを使用するかどうかを決定する方法 </a> </li> <li> 2. <a href="http://ja.uwenku.com/question/p-ppeycwhc-nc.html" target="_blank" title=".net coreが.csprojとproject.jsonを使用するかどうかを決定する"> .net coreが.csprojとproject.jsonを使用するかどうかを決定する </a> </li> <li> 3. <a href="http://ja.uwenku.com/question/p-tjnzulky-hw.html" target="_blank" title="Parse Serverは使用するAPNSプッシュ証明書をどのように決定しますか?"> Parse Serverは使用するAPNSプッシュ証明書をどのように決定しますか? </a> </li> <li> 4. <a href="http://ja.uwenku.com/question/p-ubtwspys-o.html" target="_blank" title="SQL:それを使用するかどうかを決定する"> SQL:それを使用するかどうかを決定する </a> </li> <li> 5. <a href="http://ja.uwenku.com/question/p-uygdbdeg-de.html" target="_blank" title="MySQLはGROUP BYのインデックスを使用するかどうかをどのように決定しますか?"> MySQLはGROUP BYのインデックスを使用するかどうかをどのように決定しますか? </a> </li> <li> 6. <a href="http://ja.uwenku.com/question/p-apuvmdxw-c.html" target="_blank" title="divの下にスクロールするかどうかを決定する"> divの下にスクロールするかどうかを決定する </a> </li> <li> 7. <a href="http://ja.uwenku.com/question/p-nxqevtfk-nv.html" target="_blank" title="XSLT 3を使用したテンプレートを使用して、parse-xml-fragmentの結果の未知の内容をどのように処理するのですか?"> XSLT 3を使用したテンプレートを使用して、parse-xml-fragmentの結果の未知の内容をどのように処理するのですか? </a> </li> <li> 8. <a href="http://ja.uwenku.com/question/p-xvbtwrue-hk.html" target="_blank" title="どのようなpython env IPythonを使用するか決定する方法"> どのようなpython env IPythonを使用するか決定する方法 </a> </li> <li> 9. <a href="http://ja.uwenku.com/question/p-qnfsirdo-dg.html" target="_blank" title="`GROUP BY`はどの集合メソッドを使用するかをどのように決定するのですか?"> `GROUP BY`はどの集合メソッドを使用するかをどのように決定するのですか? </a> </li> <li> 10. <a href="http://ja.uwenku.com/question/p-yvcvjxgw-v.html" target="_blank" title="ScopedProxyはどのセッションを使用するかをどのように決定するのですか?"> ScopedProxyはどのセッションを使用するかをどのように決定するのですか? </a> </li> <div> <script async src="https://pagead2.googlesyndication.com/pagead/js/adsbygoogle.js"></script> <ins class="adsbygoogle" style="display:block; text-align:center;" data-ad-layout="in-article" data-ad-format="fluid" data-ad-client="ca-pub-6208739752673518" data-ad-slot="4606349252"></ins> <script> (adsbygoogle = window.adsbygoogle || []).push({}); </script> </div> <li> 11. <a href="http://ja.uwenku.com/question/p-nppmmtdi-mp.html" target="_blank" title="テキストメソッドにアクセスする前に、Nokogiriオブジェクトがnilかどうかをチェックします"> テキストメソッドにアクセスする前に、Nokogiriオブジェクトがnilかどうかをチェックします </a> </li> <li> 12. <a href="http://ja.uwenku.com/question/p-ppusbcup-ch.html" target="_blank" title="ViewDataを使用するかどうかViewDataを使用するかどうか"> ViewDataを使用するかどうかViewDataを使用するかどうか </a> </li> <li> 13. <a href="http://ja.uwenku.com/question/p-thmjjdbf-b.html" target="_blank" title="クラスを使用するかどうかを指定するクラス"> クラスを使用するかどうかを指定するクラス </a> </li> <li> 14. <a href="http://ja.uwenku.com/question/p-mdkfazlw-na.html" target="_blank" title="dataweave lookupによって返されるペイロードを使用するかどうかを決定できますか?"> dataweave lookupによって返されるペイロードを使用するかどうかを決定できますか? </a> </li> <li> 15. <a href="http://ja.uwenku.com/question/p-ehvkxmqr-bv.html" target="_blank" title="どのAndroidコンポーネントをいつ使用するかを決定しますか?"> どのAndroidコンポーネントをいつ使用するかを決定しますか? </a> </li> <li> 16. <a href="http://ja.uwenku.com/question/p-khrqozim-pk.html" target="_blank" title="Parse PFQuery - 配列が同一かどうかを調べる - Swift"> Parse PFQuery - 配列が同一かどうかを調べる - Swift </a> </li> <li> 17. <a href="http://ja.uwenku.com/question/p-ykqlctie-kq.html" target="_blank" title="円が無限線と交差するかどうかを決定する"> 円が無限線と交差するかどうかを決定する </a> </li> <li> 18. <a href="http://ja.uwenku.com/question/p-qmxtojit-g.html" target="_blank" title="UITableViewRowAnimationAutomaticはどのアニメーションを使用するかをどのように決定しますか?"> UITableViewRowAnimationAutomaticはどのアニメーションを使用するかをどのように決定しますか? </a> </li> <li> 19. <a href="http://ja.uwenku.com/question/p-rabrwbrl-eu.html" target="_blank" title="Mac OSはどのlocalization.stringsファイルを使用するかをどのように決定しますか?"> Mac OSはどのlocalization.stringsファイルを使用するかをどのように決定しますか? </a> </li> <li> 20. <a href="http://ja.uwenku.com/question/p-dyfqmxid-bq.html" target="_blank" title="DispatchMessageはどのWndProcを使用するかをどのように決定しますか?"> DispatchMessageはどのWndProcを使用するかをどのように決定しますか? </a> </li> <li> 21. <a href="http://ja.uwenku.com/question/p-gtwgihbf-pe.html" target="_blank" title="FragmentでSearchViewを使用する方法はありますか?"> FragmentでSearchViewを使用する方法はありますか? </a> </li> <li> 22. <a href="http://ja.uwenku.com/question/p-qwmascwi-bs.html" target="_blank" title="ポインタがParse-Serverでnilであるかどうかを検出する"> ポインタがParse-Serverでnilであるかどうかを検出する </a> </li> <li> 23. <a href="http://ja.uwenku.com/question/p-aytbqkjw-pp.html" target="_blank" title="PFFileがキャッシュされているかどうかを確認するSwift - Parse Check"> PFFileがキャッシュされているかどうかを確認するSwift - Parse Check </a> </li> <li> 24. <a href="http://ja.uwenku.com/question/p-ycmxvyyi-bv.html" target="_blank" title="は、無向グラフが木であるかどうかを決定する"> は、無向グラフが木であるかどうかを決定する </a> </li> <li> 25. <a href="http://ja.uwenku.com/question/p-rsnicgfg-eg.html" target="_blank" title="RDBMS、Doc/Obj ODBMS、またはGraphを使用するかどうかを決定する方法は?"> RDBMS、Doc/Obj ODBMS、またはGraphを使用するかどうかを決定する方法は? </a> </li> <li> 26. <a href="http://ja.uwenku.com/question/p-zgdqfeak-gk.html" target="_blank" title="アクティビティに属するボタンのFragmentからclickListenerを設定するにはどうすればよいですか?"> アクティビティに属するボタンのFragmentからclickListenerを設定するにはどうすればよいですか? </a> </li> <li> 27. <a href="http://ja.uwenku.com/question/p-hswlkzbt-ma.html" target="_blank" title="どの型付き配列を使用するかはどのように決定しますか?"> どの型付き配列を使用するかはどのように決定しますか? </a> </li> <li> 28. <a href="http://ja.uwenku.com/question/p-kvejnyyd-ek.html" target="_blank" title="はどのパッケージが使用されるかを決定します"> はどのパッケージが使用されるかを決定します </a> </li> <li> 29. <a href="http://ja.uwenku.com/question/p-qxoncqse-hp.html" target="_blank" title="どのようにRailsがActiveRecordインスタンスに使用する名前付きルートヘルパーを決定するのですか?"> どのようにRailsがActiveRecordインスタンスに使用する名前付きルートヘルパーを決定するのですか? </a> </li> <li> 30. <a href="http://ja.uwenku.com/question/p-nrbaqslf-dw.html" target="_blank" title="彼はどのように彼が使用する技術の設計パターンを決定するのですか?"> 彼はどのように彼が使用する技術の設計パターンを決定するのですか? </a> </li> </ul> </div> <div> <script async src="https://pagead2.googlesyndication.com/pagead/js/adsbygoogle.js"></script> <ins class="adsbygoogle" style="display:block" data-ad-format="autorelaxed" data-ad-client="ca-pub-6208739752673518" data-ad-slot="1575177025"></ins> <script> (adsbygoogle = window.adsbygoogle || []).push({}); </script> </div> <div class="padding-top-10"></div> </div> </div> <script type="text/javascript" src="http://img.uwenku.com/uwenku/script/side.js?t=1644592048742"></script> <script type="text/javascript" src="http://img.uwenku.com/uwenku/plugin/highlight/highlight.pack.js"></script> <link href="http://img.uwenku.com/uwenku/plugin/highlight/styles/docco.css" media="screen" rel="stylesheet" type="text/css" /> <script type="text/javascript"> $('pre').each(function(i, e) { hljs.highlightBlock(e, "<span class='indent'> </span>", false) }); </script> <div class="col-lg-3 col-md-4 col-sm-5"> <div id="rightTop"> <div class="row"> <script async src="https://pagead2.googlesyndication.com/pagead/js/adsbygoogle.js"></script> <ins class="adsbygoogle" style="display:block" data-ad-client="ca-pub-6208739752673518" data-ad-slot="5415218910" data-ad-format="auto" data-full-width-responsive="true"></ins> <script> (adsbygoogle = window.adsbygoogle || []).push({}); </script> </div> <div class="row sidebar panel panel-default"> <div class="panel-heading font-bold"> 最新の質問 </div> <div class="m-b-sm m-t-sm clearfix"> <ul class="side_article_list"> <li class="side_article_list_item"> 1. <a href="http://ja.uwenku.com/question/p-aelvwfwp-gq.html" target="_blank" title="引数としての部分関数呼び出しpython"> 引数としての部分関数呼び出しpython </a> </li> <li class="side_article_list_item"> 2. <a href="http://ja.uwenku.com/question/p-xjwjwugg-gw.html" target="_blank" title="テンプレート引数の型をアサートする方法STLイテレータの型"> テンプレート引数の型をアサートする方法STLイテレータの型 </a> </li> <li class="side_article_list_item"> 3. <a href="http://ja.uwenku.com/question/p-pzcacwvg-gz.html" target="_blank" title="java - 文字 'ת'(ヘブライ語)の代わりに文字 'を入力したとき、'ת 'キーをシミュレートしようとすると、なぜですか?"> java - 文字 'ת'(ヘブライ語)の代わりに文字 'を入力したとき、'ת 'キーをシミュレートしようとすると、なぜですか? </a> </li> <li class="side_article_list_item"> 4. <a href="http://ja.uwenku.com/question/p-mxvlskis-gc.html" target="_blank" title="32ビットと64ビットのPythonを使用する - "NameError:グローバル名 'numpy'などが定義されていません""> 32ビットと64ビットのPythonを使用する - "NameError:グローバル名 'numpy'などが定義されていません" </a> </li> <li class="side_article_list_item"> 5. <a href="http://ja.uwenku.com/question/p-xiyfpjdv-ez.html" target="_blank" title="入力中に入力フィールドのフォーカスが失われています(AJAX Search)"> 入力中に入力フィールドのフォーカスが失われています(AJAX Search) </a> </li> <li class="side_article_list_item"> 6. <a href="http://ja.uwenku.com/question/p-yezmctqx-gk.html" target="_blank" title="Intelij AppCode - 文字列定数リファクタリング:どのように複数の "ハードコーディングされた"文字列を1つの文字列ファイル(アンドロイドなど)に抽出できますか?"> Intelij AppCode - 文字列定数リファクタリング:どのように複数の "ハードコーディングされた"文字列を1つの文字列ファイル(アンドロイドなど)に抽出できますか? </a> </li> <li class="side_article_list_item"> 7. <a href="http://ja.uwenku.com/question/p-rirlumyu-pn.html" target="_blank" title="Kivy:Buildozer.specファイルが完成していません"> Kivy:Buildozer.specファイルが完成していません </a> </li> <li class="side_article_list_item"> 8. <a href="http://ja.uwenku.com/question/p-pmcioxso-oo.html" target="_blank" title="配列に存在するキーワードが文字列に含まれていないか確認してください"> 配列に存在するキーワードが文字列に含まれていないか確認してください </a> </li> <li class="side_article_list_item"> 9. <a href="http://ja.uwenku.com/question/p-smhidtwk-om.html" target="_blank" title="./configureコマンドラインビルドオプションを保存するにはどうすればよいですか?"> ./configureコマンドラインビルドオプションを保存するにはどうすればよいですか? </a> </li> <li class="side_article_list_item"> 10. <a href="http://ja.uwenku.com/question/p-veivqolp-or.html" target="_blank" title="醜い番号 - DPアプローチ"> 醜い番号 - DPアプローチ </a> </li> </ul> </div> </div> </div> <p class="article-nav-bar"></p> <div class="row sidebar article-nav"> <div class="row box_white visible-sm visible-md visible-lg margin-zero"> <div class="top"> <h3 class="title"><i class="glyphicon glyphicon-th-list"></i> 関連する問題</h3> </div> <div class="article-relative-content"> <ul class="side_article_list"> <li class="side_article_list_item"> 1. <a href="http://ja.uwenku.com/question/p-faditsci-es.html" target="_blank" title="Androidアプリケーションがネットワークプロキシを使用するかどうかを決定する方法"> Androidアプリケーションがネットワークプロキシを使用するかどうかを決定する方法 </a> </li> <li class="side_article_list_item"> 2. <a href="http://ja.uwenku.com/question/p-ppeycwhc-nc.html" target="_blank" title=".net coreが.csprojとproject.jsonを使用するかどうかを決定する"> .net coreが.csprojとproject.jsonを使用するかどうかを決定する </a> </li> <li class="side_article_list_item"> 3. <a href="http://ja.uwenku.com/question/p-tjnzulky-hw.html" target="_blank" title="Parse Serverは使用するAPNSプッシュ証明書をどのように決定しますか?"> Parse Serverは使用するAPNSプッシュ証明書をどのように決定しますか? </a> </li> <li class="side_article_list_item"> 4. <a href="http://ja.uwenku.com/question/p-ubtwspys-o.html" target="_blank" title="SQL:それを使用するかどうかを決定する"> SQL:それを使用するかどうかを決定する </a> </li> <li class="side_article_list_item"> 5. <a href="http://ja.uwenku.com/question/p-uygdbdeg-de.html" target="_blank" title="MySQLはGROUP BYのインデックスを使用するかどうかをどのように決定しますか?"> MySQLはGROUP BYのインデックスを使用するかどうかをどのように決定しますか? </a> </li> <li class="side_article_list_item"> 6. <a href="http://ja.uwenku.com/question/p-apuvmdxw-c.html" target="_blank" title="divの下にスクロールするかどうかを決定する"> divの下にスクロールするかどうかを決定する </a> </li> <li class="side_article_list_item"> 7. <a href="http://ja.uwenku.com/question/p-nxqevtfk-nv.html" target="_blank" title="XSLT 3を使用したテンプレートを使用して、parse-xml-fragmentの結果の未知の内容をどのように処理するのですか?"> XSLT 3を使用したテンプレートを使用して、parse-xml-fragmentの結果の未知の内容をどのように処理するのですか? </a> </li> <li class="side_article_list_item"> 8. <a href="http://ja.uwenku.com/question/p-xvbtwrue-hk.html" target="_blank" title="どのようなpython env IPythonを使用するか決定する方法"> どのようなpython env IPythonを使用するか決定する方法 </a> </li> <li class="side_article_list_item"> 9. <a href="http://ja.uwenku.com/question/p-qnfsirdo-dg.html" target="_blank" title="`GROUP BY`はどの集合メソッドを使用するかをどのように決定するのですか?"> `GROUP BY`はどの集合メソッドを使用するかをどのように決定するのですか? </a> </li> <li class="side_article_list_item"> 10. <a href="http://ja.uwenku.com/question/p-yvcvjxgw-v.html" target="_blank" title="ScopedProxyはどのセッションを使用するかをどのように決定するのですか?"> ScopedProxyはどのセッションを使用するかをどのように決定するのですか? </a> </li> </ul> </div> </div> </div> </div> </div> </div> </div><!-- wrap end--> <!-- footer --> <footer id="footer"> <div class="bg-simple lt"> <div class="container"> <div class="row padder-v m-t"> <div class="col-xs-8"> <ul class="list-inline"> <li><a href="http://ja.uwenku.com/contact">お問い合わせ</a></li> <li>© 2020 JA.UWENKU.COM</li> <li><a target="_blank" href="https://beian.miit.gov.cn/">沪ICP备13005482号-4</a></li> <li><script type="text/javascript" src="https://v1.cnzz.com/z_stat.php?id=1280101193&web_id=1280101193"></script></li> <li><a href="http://www.uwenku.com/" target="_blank" title="优文库">简体中文</a></li> <li><a href="http://hk.uwenku.com/" target="_blank" title="優文庫">繁體中文</a></li> <li><a href="http://ru.uwenku.com/" target="_blank" title="поле вопросов и ответов">Русский</a></li> <li><a href="http://de.uwenku.com/" target="_blank" title="Frage - und - antwort - Park">Deutsch</a></li> <li><a href="http://es.uwenku.com/" target="_blank" title="Preguntas y respuestas">Español</a></li> <li><a href="http://hi.uwenku.com/" target="_blank" title="कार्यक्रम प्रश्न और उत्तर पार्क">हिन्दी</a></li> <li><a href="http://it.uwenku.com/" target="_blank" title="IL Programma di chiedere Park">Italiano</a></li> <li><a href="http://ja.uwenku.com/" target="_blank" title="プログラム問答園区">日本語</a></li> <li><a href="http://ko.uwenku.com/" target="_blank" title="프로그램 문답 단지">한국어</a></li> <li><a href="http://pl.uwenku.com/" target="_blank" title="program o park">Polski</a></li> <li><a href="http://tr.uwenku.com/" target="_blank" title="Program soru ve cevap parkı">Türkçe</a></li> <li><a href="http://vi.uwenku.com/" target="_blank" title="Đáp ứng viên">Tiếng Việt</a></li> <li><a href="http://fr.uwenku.com/" target="_blank" title="Programme interrogation Park">Française</a></li> </ul> </div> </div> </div> </div> </div> </footer> <!-- / footer --> <script> var _hmt = _hmt || []; (function() { var hm = document.createElement("script"); hm.src = "https://hm.baidu.com/hm.js?f78a970f17b19a79fc477a3378096f29"; var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(hm, s); })(); </script> </body> </html>