2011-07-29 9 views
1

Webページからデータを検索して抜き取ってデータベースに貼り付けるには、何が良いオープンソースのJavaライブラリですか?ウェブページからデータを検索してスクラップするには、いくつかの優れたJavaライブラリがあります。

<tr><td><b>Address:</b></td> 
<td colspan=3>123 My Street  </td></tr> 

「住所:」たとえば、私のようなページがあったと仮定鍵ですが、私は実際には、間にhtmlタグとスペースの束を持っている「123マイ・ストリート」を取得しようとしています。理想的には、文字列 "Address:"に続くtdの値を取得したい。 JSoupが検索を行うことができるようですが、オフセットを行う方法の良い例は見られませんでした(私はそれを見逃しているかもしれません)。キー/値を扱うライブラリはありますか?

私はKapow Extraction BrowserのようなUIスクリプト作成のためのオープンソース(MIT/Apache)の取り組みについても学びたいと思っています。

ありがとうございました。

答えて

1

これは、オープンソースのパーサの良いリストです:http://java-source.net/open-source/html-parsers

私は数十野生でのWebページの何千ものを解析するための大きな成功を収めてTagSoupを使用しました。 「キー・バリュー」関係については、それはあなた自身に対処しなければならないものです。

2

お試しWeb-Harvest オープンソースのクローラはJavaで書かれています。
Javaライブラリ、コマンドラインアプリケーション、またはスタンドアロンIDEとして使用できます。

<xpath>要素を使用すると、XHTMLドキュメントから任意の値を抽出できます。

関連する問題