ウェブページからデータを検索してスクラップするには、いくつかの優れたJavaライブラリがあります。

Webページからデータを検索して抜き取ってデータベースに貼り付けるには、何が良いオープンソースのJavaライブラリですか？ウェブページからデータを検索してスクラップするには、いくつかの優れたJavaライブラリがあります。

<tr><td><b>Address:</b></td> 
<td colspan=3>123 My Street  </td></tr>

「住所：」たとえば、私のようなページがあったと仮定鍵ですが、私は実際には、間にhtmlタグとスペースの束を持っている「123マイ・ストリート」を取得しようとしています。理想的には、文字列 "Address："に続くtdの値を取得したい。 JSoupが検索を行うことができるようですが、オフセットを行う方法の良い例は見られませんでした（私はそれを見逃しているかもしれません）。キー/値を扱うライブラリはありますか？

私はKapow Extraction BrowserのようなUIスクリプト作成のためのオープンソース（MIT/Apache）の取り組みについても学びたいと思っています。

ありがとうございました。

出典

2011-07-29 JStark

これは、オープンソースのパーサの良いリストです：http://java-source.net/open-source/html-parsers

私は数十野生でのWebページの何千ものを解析するための大きな成功を収めてTagSoupを使用しました。「キー・バリュー」関係については、それはあなた自身に対処しなければならないものです。

出典

2011-07-29 02:28:44

お試しWeb-Harvest オープンソースのクローラはJavaで書かれています。
Javaライブラリ、コマンドラインアプリケーション、またはスタンドアロンIDEとして使用できます。

<xpath>要素を使用すると、XHTMLドキュメントから任意の値を抽出できます。

出典

2011-12-16 16:34:07 Paker

ウェブページからデータを検索してスクラップするには、いくつかの優れたJavaライブラリがあります。

答えて

関連する問題