2011-12-23 12 views
0

動的ページのURLをヒットし、コンテンツを取得し、さまざまなネストされたdivタグで特定のdivタグを検索し、コンテンツを取得するユーティリティを作成しています。DIVの要素をすばやくトラバースする、または要素を見つける方法

主に、私はいくつかのJavaコード/ライブラリを探しています。 JavaScriptやJavaScriptベースのライブラリも私の役に立つでしょう。

- > JSoup、Jerry、JTidy(2009-12-01最終更新)。どちらが最高のパフォーマンス賢明ですか?

:質問を改訂しました。ショートリストのlibを追加しました。

答えて

0

は、各div要素の一意のIDを与え、何を後にしていることは、セレクタエンジンである場合のdocument.getElementById(ID)

1

を使用して取得し、Sizzleはあなたの最善の策です。そのエンジンはjQueryで使用されています。

2

ページをスクラップして解析する場合は、nodeをjsdomと併用することをおすすめします。

nodeJS(仮定Linux)のインストール:http://nodejs.org/dist/v0.6.6/node-v0.6.6.msi

インストールjsdom:このスクリプトは、あなたのURLと関連して修正

$ npm install jsdom 

実行

sudo apt-get install git 
cd ~ 
git clone git://github.com/joyent/node 
cd node 
git checkout v0.6 
mkdir ~/.local # If it doesn't already exist 
./configure --prefix=~/.local 
make 
make install 

また、Windowsインストーラがありますがセレクタ:

var jsdom = require('jsdom'); 

jsdom.env({ 
    html: 'url', 
    done: function(errors, window) { 
     console.log(window.document.getElementById('foo').textContent; 
    } 
}); 
あなたはjQueryの単純な構文を好きなら
2

、あなたはJerryを試すことができます。

Jerry is a jQuery in Java. Jerry is a fast and concise Java Library that simplifies HTML document parsing, traversing and manipulating. 
Jerry is designed to change the way that you parse HTML content. 

構文は非常に簡単であると思われます。 最大3行のコードで問題を解決するはずです。

関連する問題