JSoupを使用して複数のページからテキストのみを取得する

私はGoogleにクエリを送信することによって得られる1000ページ（リンク）のセットを持っています。私はJSoupを使用しています。私は画像、リンク、メニュー、ビデオなどを取り除き、すべてのページから主要な記事だけを取りたいと思っています。JSoupを使用して複数のページからテキストのみを取得する

私の問題は、私はすべてのページに同じコマンドを使用することはできませんので、すべてのページが別のDOMツリーを持っているということです！これを1000ページ同時に行う方法はありますか？私は正規表現を使わなければならないと思う。おそらくそのようなもの

textdoc.body().select("[id*=main]").text();//get id that contains the word main 
textdoc.body().select("[class*=main]").text();//get class that contains the word main 
textdoc.body().select("[id*=content]").text();//get id that contains the word content

しかし、私はいつもこれで何かが恋しくなると感じています。どんな良いアイデアですか？

出典

2012-01-19 argi

Element main = doc.select("div.main").first(); 
Elements links = main.select("a[href]");

すべての異なるページには、メイン記事のメインクラスがありますか？

出典

2012-01-19 11:56:44 JackTurky

これは問題です...私はないと思います... – argi

あなたはすべてのページに似た何かを持っているのですか？ – JackTurky

私は1000ページをチェックすることができません：P：P – argi

JSoupを使用して複数のページからテキストのみを取得する

答えて

関連する問題