2011-07-12 9 views
0

Hey私は文字列で私に送られるhtmlのデータを解析したい。 私が望むデータは大文字であり、ここではDATAxと名付けます。 データの長さは任意です。文字列からhtmltagsをパースするjava/gwt

http://pastebin.mozilla.org/1270216

私が解析する必要があり、このような、より多くの行があります。

返信する

+0

この文字列から抽出しようとしているデータの種類に関する詳細な情報を提供する必要があります。この場合、 'DATAx'という文字列はこの状況では役に立ちません。また区切り文字なし(各データ間のカンマのような)は非常に困難です。 – Arj

+0

投稿にコードを入れようとしています:) – Alb

+0

その文字列とダブルスをhtmlから取得したい – Alb

答えて

2

私はjsoupで幸運を祈っています。これは、jQueryスタイルのDOMノードセレクタを使用し、非常にフォーマットの悪いHTMLフラグメントでも動作します。

+0

ok thx病気を見てください – Alb

+0

http://jsoup.org/cookbook/input/parse-document- from-string私は異なるidとタグから平文を得ることができますか? – Alb

+0

@Alb - はい。例を歩いてください。特に、これはhttp://jsoup.org/cookbook/extracting-data/attributes-text-htmlです。 – cdeszaq

0

私はjsoupについてよくわかりませんが、TagSoupは素晴らしいHTML解析ライブラリです。私は何年も前から数万(少なくとも)の野生のウェブページに対して実行されていた生産システムでそれを持っていました.TagSoupからの失敗は一度もありませんでした。それは、恐ろしいフォーマットのHTMLでも可能です。

関連する問題