HTMLとXMLページからページタイトルを抽出しようとしています。java正規表現でページタイトルを抽出する
Pattern p = Pattern.compile(".*<head>.*<title>(.*)</title>.*</head>.*");
問題はそれだけでHTMLファイルからタイトルを抽出し、XMLファイルのために私にはnullを与えることである:これは私が使用する正規表現です。誰も私がXMLページのタイトルを取得するために正規表現を変更するのに役立つことができますか?
コード:
としては、上記とcontent= stringBuilder.toString(); // put content of the file as a string
Pattern p = Pattern.compile(".*<head>.*<title>(.*)</title>.*</head>.*");
Matcher m = p.matcher(content);
while (m.find()) {
title = m.group(1);
}
(本体部分を除去するために例えば)以下について、あなたは(http://stackoverflow.com/questions/1732348/regex-match-open- [HTMLを解析するために正規表現を使用して*いない]と考えられているものtags-except-xhtml-self-contained-tags)? –
この種の質問はよくあることですが、答えは同じです。regexはHTMLの解析には適していません。それは、このような非常に戦術的な何かのために、あなたが成功するかもしれないと言われています。コードを投稿すれば、それを見ていきます。 –
content = stringBuilder.toString(); //ファイルの内容を文字列として入力します。 \tパターンp = Pattern.compile( "。*
。*