2012-01-19 9 views
0

私はGoogleにクエリを送信することによって得られる1000ページ(リンク)のセットを持っています。私はJSoupを使用しています。私は画像、リンク、メニュー、ビデオなどを取り除き、すべてのページから主要な記事だけを取りたいと思っています。JSoupを使用して複数のページからテキストのみを取得する

私の問題は、私はすべてのページに同じコマンドを使用することはできませんので、すべてのページが別のDOMツリーを持っているということです!これを1000ページ同時に行う方法はありますか?私は正規表現を使わなければならないと思う。おそらくそのようなもの

textdoc.body().select("[id*=main]").text();//get id that contains the word main 
textdoc.body().select("[class*=main]").text();//get class that contains the word main 
textdoc.body().select("[id*=content]").text();//get id that contains the word content 

しかし、私はいつもこれで何かが恋しくなると感じています。どんな良いアイデアですか?

答えて

0
Element main = doc.select("div.main").first(); 
Elements links = main.select("a[href]"); 

すべての異なるページには、メイン記事のメインクラスがありますか?

+0

これは問題です...私はないと思います... – argi

+0

あなたはすべてのページに似た何かを持っているのですか? – JackTurky

+0

私は1000ページをチェックすることができません:P:P – argi

関連する問題