この特定の質問を確認したところ、何も見つかりませんでした。私はWebページからコンテンツを分析するJavaでプログラムを書いているので、すべてのリンクとタグ(href
、img
など)を取り除くことができる正規表現が必要です。ウェブページに表示されます。どうもありがとう。Javaプログラムで正規表現でWebページの内容(タグ、リンクではない)のみを表示する方法
こんにちは、私はそれをより具体的にしたかった:
URLConnection connection = wordURL.openConnection("http://en.wikipedia.org/wiki/Bloom_filter");
BufferedReader br = new BufferedReader(new InputStreamReader(connection.getInputStream()));
String line;
String word = "bloom filter";
String regexp2 = word;
Pattern pattern2 = Pattern.compile(regexp2);
String HTML_REGEX = "(<.+?>)+"; // as per your answer(Martijn Courteaux)
while ((line = br.readLine()) != null)
{
String content;
if ((content = line.replaceAll(HTML_REGEX, "\n"))!= null)
{
Matcher matcher2 = pattern2.matcher(line);
if(matcher2.find())
{
System.out.println(line);
}
}
}
しかし残念ながら、それはまだ</li>
内部のいくつかのゴミと段落(<p>
)タグとも<li
>タグを出力します。私はそれが "ブルームフィルター"が存在する単語だけを表示するように制限したいと思います。再び感謝します。
こんにちは、あなたの答えは確かに助けたが、私は私の新しい編集済みの質問ごとに、それを制限する(上記の)コードを変更助けることができる(笑)...リンクの –
ありがとうございました。あなたのソリューションは完璧に機能しました! –
歓迎しますが、JSoupのようなパーサを使うべきです。 –