私はNekoHtmlを使用しています。それはmercurynews.comのようなサイトからHTMLへの解析に失敗しました。問題の解決方法は?不正な形式のHTMLをJavaのDOMに処理する/解析する方法は?
0
A
答えて
3
other parsersに切り替える以外は?サイトに一貫したエラーパターンがある場合は、パーサーに渡す前に一連の正規表現を使用して修正することができます。
5
あなたはタグスープを考えましたか?
0
あなたはSwingのHTMLパーサを使用して検討することができます。
0
私はより少なくよりフレンドリーなHTMLを解析するために、「ロボ・プロジェクト」(http://lobobrowser.org/cobra.jsp)からコブラレンダラを使用している、それがうまく働いています。それはAPIも非常に使いやすいです。
これが役に立ちます。私が何を意味「のようなサイト」が、MercuryNews.com知らないとほとんどのニュースサイトがRSS interfaceを持って解析する前にそれを片付けるか、いっそのパーサ
0
使用JTidy。
0
としてそれを使用する
+0
RSSはほとんどのサイトで短いスニペットを提供しています。私は、HTML形式の完全な記事を解析することに興味があります。 –
0
私は試しましたが、jsoup - http://jsoup.org - です。
jqueryのような方法で、実際のHTML解析とDOM操作のためのオープンソースのJavaライブラリです。
関連する問題
- 1. Pythonで不正形式のHTMLを解析する方法
- 2. 不正な形式のXMLパーツを解析/無視する方法は?
- 3. html DOMの実行形式を解析する
- 4. PHPで不正な形式のXMLを解析する
- 5. Javascriptで不正な形式のJSONを解析する
- 6. groovyファイルのjavaコメントをhtml形式に解析するには?
- 7. PHPで不正な形式のJSONを処理する
- 8. 不正な形式のHTMLを処理します(終了タグなし)
- 9. java日付の形式を解析する方法は?
- 10. Java - リーフノードの解析ツリー再帰を処理する方法は?
- 11. 不正な形式のSOAPエラーを処理します。
- 12. Roku - 不正な形式のXMLを解析しない
- 13. 正しい形式のHTMLを解析する
- 14. .javaファイルをJSON形式に解析する方法
- 15. 不正な形式のbrタグでの解析解析の問題
- 16. dom、html形式のタグを使用したrss解析
- 17. 解析不正な形式の文字列
- 18. HTML DOMテーブルを解析するPHP DOM
- 19. DOMで整形されていないHTMLを処理する
- 20. Javaの不正な形式の開始
- 21. BeautifulSoup(bs4):不正な形式のHTMLでエンディングタグを無視する方法
- 22. Javaエラー:不正な形式の開始
- 23. 表形式の.txtファイルの解析と処理
- 24. fullcalendarでjson形式のイベントを解析する方法は?
- 25. AndroidでTの日付形式を解析する方法は?
- 26. JavaのJava TDate形式を解析する
- 27. 不正な引数の検証を処理する方法
- 28. .NET3.5で不正な形式のXMLを処理しています
- 29. 日付形式のサーバー形式を解析する方法 "MM/dd/YYYY"
- 30. JSONKitのデータを次の形式で解析する方法
JTidyが遅く、2000年以来維持されていないことがわかりました。 –