2009-04-04 39 views
2

html文字列からタイトルタグの内容を抽出したい。私はいくつかの検索を行ったが、これまでVB/C#やPHPでそのようなコードを見つけることができない。これは、大文字と小文字の両方のタグでも機能するはずです。 <title></title>と< TITLE></TITLE>の両方で動作するはずです。ありがとうございました。htmlからタイトルタグを抽出

+0

HTMLは一般的に整形式ではありません。したがって、どのような解決策もエラーの場合があります。 どのようなエラーが起こりますか? –

+0

私はそれが大文字と小文字のタグをドキュメントから無視するべきだと思います。たぶん最善の方法では、エラーまたはタイトルタグがない場合、文字列のタイトル値または空の文字列を返す関数でなければなりません。 –

答えて

3

正規表現の仕事のように聞こえる。これは、HTMLがうまく形成されているかどうか、すなわちhead要素内のtitle要素のみを見つけることに依存する。

Regex regex = new Regex(".*<head>.*<title>(.*)</title>.*</head>.*", 
          RegexOptions.IgnoreCase); 
Match match = regex.Match(html); 
string title = match.Groups[0].Value; 

私の正規表現のチートシートは私の目の前にありませんので少し微調整する必要があります。タイトル要素が存在しない場合にもエラーチェックは行われないことに注意してください。

+2

「仕事のように聞こえますが...レギュラー・エクスプレスよりもっと!」 ) – Piskvor

+0

RE: "整形式" - HTML5.01に ''の子として ''要素を配置する必要はありません。私は正規表現とHTMLを使用することが一般的に欲求不満につながる理由の例としてこれを指摘しています。参照:http://shawn.medero.net/demos/valid-html4/ – <span class="text-secondary"> <small> <a rel="noopener" target="_blank" href="https://stackoverflow.com/users/26512/">soypunk</a></span> <span></span> </small> </span> </p> </div> </div> </div> <div itemprop="comment" class="post-comment"> <div class="row"> <div class="col-lg-1"><span class="text-secondary">+0</span></div> <div class="col-lg-11"> <p class="commenttext">soypunkが正しく指摘するよりも悪いことに、タイトルが有効でない多くの使用可能なHTMLファイルがあることが指摘されています。例えば<tiTlE> a <boDy> b実世界のHTMLを処理する場合は、実際にはHTMLパーサを使用する必要があります。 – <span class="text-secondary"> <small> <a rel="noopener" target="_blank" href="https://stackoverflow.com/users/42585/">Alohci</a></span> <span></span> </small> </span> </p> </div> </div> </div> </div> </div> </article> <div> <script async src="https://pagead2.googlesyndication.com/pagead/js/adsbygoogle.js"></script> <ins class="adsbygoogle" style="display:block" data-ad-client="ca-pub-6208739752673518" data-ad-slot="1038284119" data-ad-format="auto" data-full-width-responsive="true"></ins> <script> (adsbygoogle = window.adsbygoogle || []).push({}); </script> </div> <article class="board-top-1 padding-top-10"> <div class="post-col vote-info"> <span class="count">7<i class="fa fa-thumbs-up"></i></span> </div> <div class="post-offset"> <div class="answer fmt"> <p>正規表現を使用することはできますが、完全な誤りではありません。</p> <pre><code class="prettyprint-override">function get_title($html) { return preg_match('!<title>(.*?)</title>!i', $html, $matches) ? $matches[1] : ''; } </code></pre> </div> <div class="post-info"> <div class="post-meta row"> <p class="text-secondary col-lg-6"> <span class="source"> <a rel="noopener" target="_blank" href="https://stackoverflow.com/q/717126">出典</a> </span> </p> <p class="text-secondary col-lg-6"> <span class="float-right date"> <span>2009-04-04 13:52:04</span> <a rel="noopener" target="_blank" href="https://stackoverflow.com/users/18393/">cletus</a></span> </p> <p class="col-12"></p> <p class="col-12"></p></div> </div> <!-- comments --> <div class="comments"> <div itemprop="comment" class="post-comment"> <div class="row"> <div class="col-lg-1"><span class="text-secondary">+0</span></div> <div class="col-lg-11"> <p class="commenttext">この関数は大文字と小文字を区別していますが、大文字の場合はタイトルを抽出しません。大文字の場合は無視してこの関数を変更できますか? – <span class="text-secondary"> <small> <span></span> </small> </span> </p> </div> </div> </div> <div itemprop="comment" class="post-comment"> <div class="row"> <div class="col-lg-1"><span class="text-secondary">+0</span></div> <div class="col-lg-11"> <p class="commenttext">パターンの後の 'i'フラグは大文字小文字を区別しません。 – <span class="text-secondary"> <small> <a rel="noopener" target="_blank" href="https://stackoverflow.com/users/18393/">cletus</a></span> <span></span> </small> </span> </p> </div> </div> </div> </div> </div> </article> <article class="board-top-1 padding-top-10"> <div class="post-col vote-info"> <span class="count">0<i class="fa fa-thumbs-up"></i></span> </div> <div class="post-offset"> <div class="answer fmt"> <p>あなたは次のように式を更新する必要があります(そうであるが、発生する可能性があります)タイトルタグ内の任意の属性がある場合:あなただけ(PHPで)しかし、単純な何かをしたい場合はやる</p>を <pre><code class="prettyprint-override">$title = preg_match('!<title.*>(.*?)</title>!i', $url_content, $matches) ? $matches[1] : ''; </code></pre> </div> <div class="post-info"> <div class="post-meta row"> <p class="text-secondary col-lg-6"> <span class="source"> <a rel="noopener" target="_blank" href="https://stackoverflow.com/q/19807853">出典</a> </span> </p> <p class="text-secondary col-lg-6"> <span class="float-right date"> <span>2013-11-06 09:08:47</span> </p> <p class="col-12"></p> <p class="col-12"></p></div> </div> </div> </article> </div> <div class="clearfix"> </div> <div class="relative-box"> <div class="relative">関連する問題</div> <ul class="relative_list"> <li> 1. <a href="http://ja.uwenku.com/question/p-ahvyodbm-hc.html" target="_blank" title="beautifulsoup4でタイトルタグ要素を抽出"> beautifulsoup4でタイトルタグ要素を抽出 </a> </li> <li> 2. <a href="http://ja.uwenku.com/question/p-grsyaepz-pn.html" target="_blank" title="HTMLから抽出して特定の行を抽出する"> HTMLから抽出して特定の行を抽出する </a> </li> <li> 3. <a href="http://ja.uwenku.com/question/p-okinskwy-ec.html" target="_blank" title="éタイトルタグのHTMLエンティティコード"> éタイトルタグのHTMLエンティティコード </a> </li> <li> 4. <a href="http://ja.uwenku.com/question/p-ezogtave-be.html" target="_blank" title="htmlソースから電子メールアドレスを抽出"> htmlソースから電子メールアドレスを抽出 </a> </li> <li> 5. <a href="http://ja.uwenku.com/question/p-stflqycv-nu.html" target="_blank" title="ウェブサイトからhtmlテーブルを抽出する"> ウェブサイトからhtmlテーブルを抽出する </a> </li> <li> 6. <a href="http://ja.uwenku.com/question/p-nwjfbpzb-od.html" target="_blank" title="メールメッセージからHTMLを抽出するMac"> メールメッセージからHTMLを抽出するMac </a> </li> <li> 7. <a href="http://ja.uwenku.com/question/p-miifcvpq-db.html" target="_blank" title="HTMLコードからデータを抽出する"> HTMLコードからデータを抽出する </a> </li> <li> 8. <a href="http://ja.uwenku.com/question/p-hmwpkrtt-bd.html" target="_blank" title="htmlファイルからテキストを抽出する"> htmlファイルからテキストを抽出する </a> </li> <li> 9. <a href="http://ja.uwenku.com/question/p-yjsqwroa-z.html" target="_blank" title="HTMLからテキストを抽出する"> HTMLからテキストを抽出する </a> </li> <li> 10. <a href="http://ja.uwenku.com/question/p-chnncabv-kp.html" target="_blank" title="HTMLからデータを抽出するPowerShell"> HTMLからデータを抽出するPowerShell </a> </li> <div> <script async src="https://pagead2.googlesyndication.com/pagead/js/adsbygoogle.js"></script> <ins class="adsbygoogle" style="display:block; text-align:center;" data-ad-layout="in-article" data-ad-format="fluid" data-ad-client="ca-pub-6208739752673518" data-ad-slot="4606349252"></ins> <script> (adsbygoogle = window.adsbygoogle || []).push({}); </script> </div> <li> 11. <a href="http://ja.uwenku.com/question/p-umqbolgy-bd.html" target="_blank" title="HTMLからのテキスト抽出Java"> HTMLからのテキスト抽出Java </a> </li> <li> 12. <a href="http://ja.uwenku.com/question/p-xphueiyi-mr.html" target="_blank" title="htmlからのデータの抽出"> htmlからのデータの抽出 </a> </li> <li> 13. <a href="http://ja.uwenku.com/question/p-ttbfbrno-gc.html" target="_blank" title="HTMLページ(Python)からのデータの抽出"> HTMLページ(Python)からのデータの抽出 </a> </li> <li> 14. <a href="http://ja.uwenku.com/question/p-dkfwcakv-bh.html" target="_blank" title="xcode - htmlコードからのテキストの抽出"> xcode - htmlコードからのテキストの抽出 </a> </li> <li> 15. <a href="http://ja.uwenku.com/question/p-ftkbgugx-mh.html" target="_blank" title="htmlページからのリンクの抽出"> htmlページからのリンクの抽出 </a> </li> <li> 16. <a href="http://ja.uwenku.com/question/p-ooejybqw-cc.html" target="_blank" title="HTMLからのリンクの抽出"> HTMLからのリンクの抽出 </a> </li> <li> 17. <a href="http://ja.uwenku.com/question/p-rigvmfij-kv.html" target="_blank" title="htmlページソースからのデータの抽出"> htmlページソースからのデータの抽出 </a> </li> <li> 18. <a href="http://ja.uwenku.com/question/p-ungwscqt-dd.html" target="_blank" title="htmlドキュメントからhtmlフラグメントを抽出する"> htmlドキュメントからhtmlフラグメントを抽出する </a> </li> <li> 19. <a href="http://ja.uwenku.com/question/p-ndhvtnxf-gh.html" target="_blank" title="抽出htmlコード"> 抽出htmlコード </a> </li> <li> 20. <a href="http://ja.uwenku.com/question/p-ciddgbba-hv.html" target="_blank" title="Htmlからテーブルからテーブルを抽出する"> Htmlからテーブルからテーブルを抽出する </a> </li> <li> 21. <a href="http://ja.uwenku.com/question/p-csiohdpf-ow.html" target="_blank" title="HTMLからテキストをNLTKより速く抽出しますか?"> HTMLからテキストをNLTKより速く抽出しますか? </a> </li> <li> 22. <a href="http://ja.uwenku.com/question/p-zpjhwklm-pm.html" target="_blank" title="ウェブサイトからHTMLの部分を抽出しますか?"> ウェブサイトからHTMLの部分を抽出しますか? </a> </li> <li> 23. <a href="http://ja.uwenku.com/question/p-cjxbiryx-ma.html" target="_blank" title="タイトルタグからコンテンツを引き出し、HTML Webページ上にテキストとして表示できますか? Wordpressの"> タイトルタグからコンテンツを引き出し、HTML Webページ上にテキストとして表示できますか? Wordpressの </a> </li> <li> 24. <a href="http://ja.uwenku.com/question/p-ocjwvntu-dw.html" target="_blank" title="PHP> htmlファイルからhtmlデータを抽出していますか?"> PHP> htmlファイルからhtmlデータを抽出していますか? </a> </li> <li> 25. <a href="http://ja.uwenku.com/question/p-pmnyehkc-kq.html" target="_blank" title="Pythonを使用してhtmlからテキストを抽出"> Pythonを使用してhtmlからテキストを抽出 </a> </li> <li> 26. <a href="http://ja.uwenku.com/question/p-uwhkwcih-ox.html" target="_blank" title="htmlからクエリ文字列を含むURLを抽出する"> htmlからクエリ文字列を含むURLを抽出する </a> </li> <li> 27. <a href="http://ja.uwenku.com/question/p-btcuiozt-pw.html" target="_blank" title="VBAを使用してHTMLからxml値を抽出する"> VBAを使用してHTMLからxml値を抽出する </a> </li> <li> 28. <a href="http://ja.uwenku.com/question/p-dtiyuerp-v.html" target="_blank" title="Javascriptを使ってHTMLからタグを抽出する"> Javascriptを使ってHTMLからタグを抽出する </a> </li> <li> 29. <a href="http://ja.uwenku.com/question/p-fkrwsayd-pd.html" target="_blank" title="htmlページからPHPを使用してhrefを抽出"> htmlページからPHPを使用してhrefを抽出 </a> </li> <li> 30. <a href="http://ja.uwenku.com/question/p-odrnbqum-by.html" target="_blank" title="Pythonを使用してHTMLテーブルからデータを抽出する"> Pythonを使用してHTMLテーブルからデータを抽出する </a> </li> </ul> </div> <div> <script async src="https://pagead2.googlesyndication.com/pagead/js/adsbygoogle.js"></script> <ins class="adsbygoogle" style="display:block" data-ad-format="autorelaxed" data-ad-client="ca-pub-6208739752673518" data-ad-slot="1575177025"></ins> <script> (adsbygoogle = window.adsbygoogle || []).push({}); </script> </div> <div class="padding-top-10"></div> </div> </div> <script type="text/javascript" src="http://img.uwenku.com/uwenku/script/side.js?t=1644592048742"></script> <script type="text/javascript" src="http://img.uwenku.com/uwenku/plugin/highlight/highlight.pack.js"></script> <link href="http://img.uwenku.com/uwenku/plugin/highlight/styles/docco.css" media="screen" rel="stylesheet" type="text/css" /> <script type="text/javascript"> $('pre').each(function(i, e) { hljs.highlightBlock(e, "<span class='indent'> </span>", false) }); </script> <div class="col-lg-3 col-md-4 col-sm-5"> <div id="rightTop"> <div class="row"> <script async src="https://pagead2.googlesyndication.com/pagead/js/adsbygoogle.js"></script> <ins class="adsbygoogle" style="display:block" data-ad-client="ca-pub-6208739752673518" data-ad-slot="5415218910" data-ad-format="auto" data-full-width-responsive="true"></ins> <script> (adsbygoogle = window.adsbygoogle || []).push({}); </script> </div> <div class="row sidebar panel panel-default"> <div class="panel-heading font-bold"> 最新の質問 </div> <div class="m-b-sm m-t-sm clearfix"> <ul class="side_article_list"> <li class="side_article_list_item"> 1. <a href="http://ja.uwenku.com/question/p-anmlduql-om.html" target="_blank" title="Python - Scrapy - URLのリストを取得してクロールするクローラを作成する"> Python - Scrapy - URLのリストを取得してクロールするクローラを作成する </a> </li> <li class="side_article_list_item"> 2. <a href="http://ja.uwenku.com/question/p-ppbxrayl-or.html" target="_blank" title="Perl LWP :: Simple :: get($ url)が一部のURLで動作しない"> Perl LWP :: Simple :: get($ url)が一部のURLで動作しない </a> </li> <li class="side_article_list_item"> 3. <a href="http://ja.uwenku.com/question/p-nlzoovzj-ou.html" target="_blank" title="GraphUserを 'com.facebook.android:facebook-android-sdk:4.27.0'で解決できません"> GraphUserを 'com.facebook.android:facebook-android-sdk:4.27.0'で解決できません </a> </li> <li class="side_article_list_item"> 4. <a href="http://ja.uwenku.com/question/p-phdpmxwy-ot.html" target="_blank" title="Office.initialize raise $ rootScope:infdig"> Office.initialize raise $ rootScope:infdig </a> </li> <li class="side_article_list_item"> 5. <a href="http://ja.uwenku.com/question/p-vyqlizvo-ox.html" target="_blank" title="Swift:Spritekit Sceneのサイズを取得してSKNodeフルスクリーンを表示する方法は?"> Swift:Spritekit Sceneのサイズを取得してSKNodeフルスクリーンを表示する方法は? </a> </li> <li class="side_article_list_item"> 6. <a href="http://ja.uwenku.com/question/p-klsbwytg-pv.html" target="_blank" title="文書をAtlasサーバーに書き込む際のC#MongoDB例外"> 文書をAtlasサーバーに書き込む際のC#MongoDB例外 </a> </li> <li class="side_article_list_item"> 7. <a href="http://ja.uwenku.com/question/p-dubsqczv-qb.html" target="_blank" title="AJAX:request.status == 200 falseを返しますか? (ページに表示されないデータ)"> AJAX:request.status == 200 falseを返しますか? (ページに表示されないデータ) </a> </li> <li class="side_article_list_item"> 8. <a href="http://ja.uwenku.com/question/p-zciuiidu-pb.html" target="_blank" title="Dockerを使用してgcloudでFlaskを実行しているときにエラーが発生しました"> Dockerを使用してgcloudでFlaskを実行しているときにエラーが発生しました </a> </li> <li class="side_article_list_item"> 9. <a href="http://ja.uwenku.com/question/p-yqjxbnyy-pk.html" target="_blank" title="kv言語でプロパティをバインドする方法は?"> kv言語でプロパティをバインドする方法は? </a> </li> <li class="side_article_list_item"> 10. <a href="http://ja.uwenku.com/question/p-volboxkf-pr.html" target="_blank" title="Node.js経由のエクスプレス -/"> Node.js経由のエクスプレス -/ </a> </li> </ul> </div> </div> </div> <p class="article-nav-bar"></p> <div class="row sidebar article-nav"> <div class="row box_white visible-sm visible-md visible-lg margin-zero"> <div class="top"> <h3 class="title"><i class="glyphicon glyphicon-th-list"></i> 関連する問題</h3> </div> <div class="article-relative-content"> <ul class="side_article_list"> <li class="side_article_list_item"> 1. <a href="http://ja.uwenku.com/question/p-ahvyodbm-hc.html" target="_blank" title="beautifulsoup4でタイトルタグ要素を抽出"> beautifulsoup4でタイトルタグ要素を抽出 </a> </li> <li class="side_article_list_item"> 2. <a href="http://ja.uwenku.com/question/p-grsyaepz-pn.html" target="_blank" title="HTMLから抽出して特定の行を抽出する"> HTMLから抽出して特定の行を抽出する </a> </li> <li class="side_article_list_item"> 3. <a href="http://ja.uwenku.com/question/p-okinskwy-ec.html" target="_blank" title="éタイトルタグのHTMLエンティティコード"> éタイトルタグのHTMLエンティティコード </a> </li> <li class="side_article_list_item"> 4. <a href="http://ja.uwenku.com/question/p-ezogtave-be.html" target="_blank" title="htmlソースから電子メールアドレスを抽出"> htmlソースから電子メールアドレスを抽出 </a> </li> <li class="side_article_list_item"> 5. <a href="http://ja.uwenku.com/question/p-stflqycv-nu.html" target="_blank" title="ウェブサイトからhtmlテーブルを抽出する"> ウェブサイトからhtmlテーブルを抽出する </a> </li> <li class="side_article_list_item"> 6. <a href="http://ja.uwenku.com/question/p-nwjfbpzb-od.html" target="_blank" title="メールメッセージからHTMLを抽出するMac"> メールメッセージからHTMLを抽出するMac </a> </li> <li class="side_article_list_item"> 7. <a href="http://ja.uwenku.com/question/p-miifcvpq-db.html" target="_blank" title="HTMLコードからデータを抽出する"> HTMLコードからデータを抽出する </a> </li> <li class="side_article_list_item"> 8. <a href="http://ja.uwenku.com/question/p-hmwpkrtt-bd.html" target="_blank" title="htmlファイルからテキストを抽出する"> htmlファイルからテキストを抽出する </a> </li> <li class="side_article_list_item"> 9. <a href="http://ja.uwenku.com/question/p-yjsqwroa-z.html" target="_blank" title="HTMLからテキストを抽出する"> HTMLからテキストを抽出する </a> </li> <li class="side_article_list_item"> 10. <a href="http://ja.uwenku.com/question/p-chnncabv-kp.html" target="_blank" title="HTMLからデータを抽出するPowerShell"> HTMLからデータを抽出するPowerShell </a> </li> </ul> </div> </div> </div> </div> </div> </div> </div><!-- wrap end--> <!-- footer --> <footer id="footer"> <div class="bg-simple lt"> <div class="container"> <div class="row padder-v m-t"> <div class="col-xs-8"> <ul class="list-inline"> <li><a href="http://ja.uwenku.com/contact">お問い合わせ</a></li> <li>© 2020 JA.UWENKU.COM</li> <li><a target="_blank" href="https://beian.miit.gov.cn/">沪ICP备13005482号-4</a></li> <li><script type="text/javascript" src="https://v1.cnzz.com/z_stat.php?id=1280101193&web_id=1280101193"></script></li> <li><a href="http://www.uwenku.com/" target="_blank" title="优文库">简体中文</a></li> <li><a href="http://hk.uwenku.com/" target="_blank" title="優文庫">繁體中文</a></li> <li><a href="http://ru.uwenku.com/" target="_blank" title="поле вопросов и ответов">Русский</a></li> <li><a href="http://de.uwenku.com/" target="_blank" title="Frage - und - antwort - Park">Deutsch</a></li> <li><a href="http://es.uwenku.com/" target="_blank" title="Preguntas y respuestas">Español</a></li> <li><a href="http://hi.uwenku.com/" target="_blank" title="कार्यक्रम प्रश्न और उत्तर पार्क">हिन्दी</a></li> <li><a href="http://it.uwenku.com/" target="_blank" title="IL Programma di chiedere Park">Italiano</a></li> <li><a href="http://ja.uwenku.com/" target="_blank" title="プログラム問答園区">日本語</a></li> <li><a href="http://ko.uwenku.com/" target="_blank" title="프로그램 문답 단지">한국어</a></li> <li><a href="http://pl.uwenku.com/" target="_blank" title="program o park">Polski</a></li> <li><a href="http://tr.uwenku.com/" target="_blank" title="Program soru ve cevap parkı">Türkçe</a></li> <li><a href="http://vi.uwenku.com/" target="_blank" title="Đáp ứng viên">Tiếng Việt</a></li> <li><a href="http://fr.uwenku.com/" target="_blank" title="Programme interrogation Park">Française</a></li> </ul> </div> </div> </div> </div> </div> </footer> <!-- / footer --> <script> var _hmt = _hmt || []; (function() { var hm = document.createElement("script"); hm.src = "https://hm.baidu.com/hm.js?f78a970f17b19a79fc477a3378096f29"; var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(hm, s); })(); </script> </body> </html>