2011-10-27 5 views
-1

可能性の重複:あなたがHTMLを解析するための推薦は何HTMLパーサ
What are the pros and cons of the leading Java HTML parsers?特定のJava HTMLパーサ

? このパーサーは、便利なテキスト、メニュー、フッターなし、ヘッダー情報を返しません。通常のコンテンツを含むテキストのみ。

私はJericho Htmlパーサ、HtmlCleanerを試しましたが、必要に応じて動作しないようです。

ありがとうございます。

答えて

2

私はあなたが何を求めているのかは分かりません。 HTMLパーサはHTMLを解析します。それを抽出するのはあなた次第です。私はjsouptagsoupが好きです。

「通常の」コンテンツをHTMLから取り出すことを希望する場合は、Apache TikaがHTMLをどのように処理するかを見ることができます。すべてのHTMLは異なった形で書かれています。「通常の」内容を定義できる必要があります。です。

+0

私は信じられないパーサーを見つけました。私が探していたものです。 自分自身のオープンソースをチェックすることができます:http://boilerpipe-web.appspot.com/ – Paulius

+0

@Pauliusそれはかなりクールに見えます;ティカのことと似ています。参照ありがとう。 –

関連する問題