Javaプログラムで正規表現でWebページの内容（タグ、リンクではない）のみを表示する方法

この特定の質問を確認したところ、何も見つかりませんでした。私はWebページからコンテンツを分析するJavaでプログラムを書いているので、すべてのリンクとタグ（href、imgなど）を取り除くことができる正規表現が必要です。ウェブページに表示されます。どうもありがとう。Javaプログラムで正規表現でWebページの内容（タグ、リンクではない）のみを表示する方法

こんにちは、私はそれをより具体的にしたかった：

URLConnection connection = wordURL.openConnection("http://en.wikipedia.org/wiki/Bloom_filter"); 
BufferedReader br = new BufferedReader(new InputStreamReader(connection.getInputStream())); 
String line; 
String word = "bloom filter"; 
String regexp2 = word; 
Pattern pattern2 = Pattern.compile(regexp2); 
String HTML_REGEX = "(<.+?>)+"; // as per your answer(Martijn Courteaux) 
while ((line = br.readLine()) != null) 
{ 
     String content; 
     if ((content = line.replaceAll(HTML_REGEX, "\n"))!= null) 
     { 
       Matcher matcher2 = pattern2.matcher(line); 
       if(matcher2.find()) 
       { 
        System.out.println(line); 
       } 
     } 
}

しかし残念ながら、それはまだ</li>内部のいくつかのゴミと段落（<p>）タグとも<li>タグを出力します。私はそれが "ブルームフィルター"が存在する単語だけを表示するように制限したいと思います。再び感謝します。

出典

2011-06-28 coding_pleasures

私は本当にそれがhtmlで正規表現を使用することは良くないと知っています。しかし、彼は本当に役立つかもしれない本を希望する場合：

String HTML_REGEX = "<.+?>"; 
String yourHTML = "<html><body><h1>Lorem Ipsum</h1>" + 
        "<p>Lorem <i>Ipsum</i> dolorem sedet. Set nihil amat. " + 
        "<sub>I don't know the text</sub></p></body></html>" 

String content = yourHTML.replaceAll(HTML_REGEX, "\n"); 
System.out.println(content);

プリント：あなたが見ることができるように

 



Lorem Impsum 

Lorem 
Ipsum 
dolorem sedet. Set nihil amat. 
I don't know the text

が、それは動作しますが、それはあなたが望む間違いではありません。

あなたは、この正規表現を使用して改行の数を減らすことができます。

String HTML_REGEX = "(<.+?>)+"; 
String yourHTML = "<html><body><h1>Lorem Ipsum</h1>" + 
        "<p>Lorem <i>Ipsum</i> dolorem sedet. Set nihil amat. " + 
        "<sub>I don't know the text</sub></p></body></html>" 

String content = yourHTML.replaceAll(HTML_REGEX, "\n"); 
System.out.println(content);

プリント：

 

Lorem Impsum 
Lorem 
Ipsum 
dolorem sedet. Set nihil amat. 
I don't know the text

私はあなたのコードを試みたが、それが実際に動作しませんでした。いくつかの編集をした後、これは働いていた：

はあなたが見つけることを試みた

あなたはcontentを印刷しますが、タグが含まれているもちろんlineませんでした...：あなたは間違っていた何だった

URLConnection connection = new URL("http://en.wikipedia.org/wiki/Bloom_filter").openConnection(); 
BufferedReader br = new BufferedReader(new InputStreamReader(connection.getInputStream())); 
String line; 
String word = "bloom filter".toLowerCase(); 
String HTML_REGEX = "(<.+?>)+"; // as per your answer(Martijn Courteaux) 
while ((line = br.readLine()) != null) { 
    String content; 
    if ((content = line.replaceAll(HTML_REGEX, "\n")) != null) { 
     if (content.toLowerCase().contains(word)) /* Changed: regex match -> contains() */ 
     { 
      System.out.println(content); /* CHANGED: line -> content */ 
     } 
    } 
}

word "bloom filter"正規表現を使用します（大文字と小文字が区別されます）。したがって、文字列を小文字にしてString.contains(CharSequence target)を使用してください。これは、ターゲット文字列が文字列全体の一部であるかどうかを示します。私Thanks..let

出典

2011-06-28 11:50:45

こんにちは、あなたの答えは確かに助けたが、私は私の新しい編集済みの質問ごとに、それを制限する（上記の）コードを変更助けることができる（笑）...リンクの –

ありがとうございました。あなたのソリューションは完璧に機能しました！ –

歓迎しますが、JSoupのようなパーサを使うべきです。 –

HTMLは正規ではありませんので、正規表現ではできませんが、JSoupを使用できます。

jsoupは、現実世界のHTMLを扱うためのJavaライブラリです。これは、DOM、CSS、およびjqueryのようなメソッドを使用して、データを抽出して操作するための非常に便利なAPIを提供します。あなたはone of the examplesに概説されている次のことを好きかもしれません特に

...

String html = "<div><p>Lorem ipsum.</p>"; 
Document doc = Jsoup.parseBodyFragment(html); 
Element body = doc.body();

出典

2011-06-28 11:40:23

は –

Don't use RegEx for HTML parsing。 HTMLパーサーを使用してください（例：HTML Parserまたはjsoup）。

出典

2011-06-28 11:41:53

おかげでそれをチェックアウト。どうもありがとう。 –

Javaプログラムで正規表現でWebページの内容（タグ、リンクではない）のみを表示する方法

答えて

関連する問題