html文字列からタイトルタグの内容を抽出したい。私はいくつかの検索を行ったが、これまでVB/C#やPHPでそのようなコードを見つけることができない。これは、大文字と小文字の両方のタグでも機能するはずです。 <title></title>
と< TITLE></TITLE>
の両方で動作するはずです。ありがとうございました。htmlからタイトルタグを抽出
答えて
正規表現の仕事のように聞こえる。これは、HTMLがうまく形成されているかどうか、すなわちhead要素内のtitle要素のみを見つけることに依存する。
Regex regex = new Regex(".*<head>.*<title>(.*)</title>.*</head>.*",
RegexOptions.IgnoreCase);
Match match = regex.Match(html);
string title = match.Groups[0].Value;
私の正規表現のチートシートは私の目の前にありませんので少し微調整する必要があります。タイトル要素が存在しない場合にもエラーチェックは行われないことに注意してください。
「仕事のように聞こえますが...レギュラー・エクスプレスよりもっと!」 ) – Piskvor
RE: "整形式" - HTML5.01に '
'の子として 'soypunkが正しく指摘するよりも悪いことに、タイトルが有効でない多くの使用可能なHTMLファイルがあることが指摘されています。例えば
正規表現を使用することはできますが、完全な誤りではありません。
function get_title($html) {
return preg_match('!<title>(.*?)</title>!i', $html, $matches) ? $matches[1] : '';
}
この関数は大文字と小文字を区別していますが、大文字の場合はタイトルを抽出しません。大文字の場合は無視してこの関数を変更できますか? –
パターンの後の 'i'フラグは大文字小文字を区別しません。 – cletus
あなたは次のように式を更新する必要があります(そうであるが、発生する可能性があります)タイトルタグ内の任意の属性がある場合:あなただけ(PHPで)しかし、単純な何かをしたい場合はやる
を$title = preg_match('!<title.*>(.*?)</title>!i', $url_content, $matches) ? $matches[1] : '';
- 1. beautifulsoup4でタイトルタグ要素を抽出
- 2. HTMLから抽出して特定の行を抽出する
- 3. éタイトルタグのHTMLエンティティコード
- 4. htmlソースから電子メールアドレスを抽出
- 5. ウェブサイトからhtmlテーブルを抽出する
- 6. メールメッセージからHTMLを抽出するMac
- 7. HTMLコードからデータを抽出する
- 8. htmlファイルからテキストを抽出する
- 9. HTMLからテキストを抽出する
- 10. HTMLからデータを抽出するPowerShell
- 11. HTMLからのテキスト抽出Java
- 12. htmlからのデータの抽出
- 13. HTMLページ(Python)からのデータの抽出
- 14. xcode - htmlコードからのテキストの抽出
- 15. htmlページからのリンクの抽出
- 16. HTMLからのリンクの抽出
- 17. htmlページソースからのデータの抽出
- 18. htmlドキュメントからhtmlフラグメントを抽出する
- 19. 抽出htmlコード
- 20. Htmlからテーブルからテーブルを抽出する
- 21. HTMLからテキストをNLTKより速く抽出しますか?
- 22. ウェブサイトからHTMLの部分を抽出しますか?
- 23. タイトルタグからコンテンツを引き出し、HTML Webページ上にテキストとして表示できますか? Wordpressの
- 24. PHP> htmlファイルからhtmlデータを抽出していますか?
- 25. Pythonを使用してhtmlからテキストを抽出
- 26. htmlからクエリ文字列を含むURLを抽出する
- 27. VBAを使用してHTMLからxml値を抽出する
- 28. Javascriptを使ってHTMLからタグを抽出する
- 29. htmlページからPHPを使用してhrefを抽出
- 30. Pythonを使用してHTMLテーブルからデータを抽出する
HTMLは一般的に整形式ではありません。したがって、どのような解決策もエラーの場合があります。 どのようなエラーが起こりますか? –
私はそれが大文字と小文字のタグをドキュメントから無視するべきだと思います。たぶん最善の方法では、エラーまたはタイトルタグがない場合、文字列のタイトル値または空の文字列を返す関数でなければなりません。 –