2011-01-20 6 views
0

フレーズと大文字と小文字を区別する検索をサポートするJavaのHTMLパーサーがあるかどうかを知りたいと思います。 私が知る必要があるのは、検索されたフレーズと大文字と小文字の区別のサポートのためのhtmlページのヒット数です。フレーズと大文字と小文字を区別する検索のためのHTMLパーサー

おかげで、 シャルマ

+0

お願い、それはJava、ないJAVA –

+0

@Sean申し訳ありませんが、私はJavaでなければならないことを知っています、何か特別な理由はありますか? – remo

+0

という名前なので、頭字語/省略形ではありません(PERLとは対照的に)。 –

答えて

0

は、それは、助けにはならない:

String noHTMLString = htmlString.replaceAll("\\<.*?\\>", ""); 

、今countあなたがnoHTMLStringに必要なもの?

this is <span>cool</span> 

、あなたは(前のhtmlページは、「このクールである」という文字列に変換されるので)「クール」のテキストを探すために必要があります:あなたのようなマークアップとHTMLページを持っている場合は、有用である可能性があります。あなたはApache Commons LangからStringUtilsを使用することができますをカウントするには、countMatchesと呼ばれる特別な方法があります。一緒にすべて一緒に働く必要があります:

String htmlString = "this is <span>cool</span>";  
String noHTMLString = htmlString.replaceAll("\\<.*?\\>", ""); 
int count = StringUtils.countMatches(noHTMLString, "is cool"); 

私は、少なくともそれを試してみましょう。それは、HTMLを解析し、それからあなたが必要とする言葉を探してそれをトラバースするよりよく聞こえる...

1

あなたはthisを試みたことがありますか?

正規表現を使用してテキストを検索できます。テキスト、ストリップhtmlタグとしてHTMLページを取る場合

+0

私はそれが働いていたと読んだとき、私はページ – remo

+0

にアクセスできません....今すぐ更新 –

関連する問題