からリンクを抽出し、私はgetContentAsString()
に次のコードJavaの正規表現 - HTMLアンカー
private String anchorRegex = "\\<\\s*?a\\s+.*?href\\s*?=\\s*?([^\\s]*?).*?\\>";
private Pattern anchorPattern = Pattern.compile(anchorRegex, Pattern.CASE_INSENSITIVE);
String content = getContentAsString();
Matcher matcher = anchorPattern.matcher(content);
while(matcher.find()) {
System.out.println(matcher.group(1));
}
電話を持っているWebページからHTMLコンテンツを返します。私が持っている問題は、System.outで印刷されるのはスペースだけです。誰も私の正規表現で何が間違っているのを見ることができますか?
Regexは時々私を狂わせます。
これは、これを行うために、悪い考えです: http://stackoverflow.com/questions/590747/using-regular-expressions-to-parse-html-why-notを –
彼ではありません一般にHTMLにマッチする。 regexは、拘束されたユースケースではHTMLで問題ありません。 – beerbajay