0
私はGoogleにクエリを送信することによって得られる1000ページ(リンク)のセットを持っています。私はJSoupを使用しています。私は画像、リンク、メニュー、ビデオなどを取り除き、すべてのページから主要な記事だけを取りたいと思っています。JSoupを使用して複数のページからテキストのみを取得する
私の問題は、私はすべてのページに同じコマンドを使用することはできませんので、すべてのページが別のDOMツリーを持っているということです!これを1000ページ同時に行う方法はありますか?私は正規表現を使わなければならないと思う。おそらくそのようなもの
textdoc.body().select("[id*=main]").text();//get id that contains the word main
textdoc.body().select("[class*=main]").text();//get class that contains the word main
textdoc.body().select("[id*=content]").text();//get id that contains the word content
しかし、私はいつもこれで何かが恋しくなると感じています。どんな良いアイデアですか?
これは問題です...私はないと思います... – argi
あなたはすべてのページに似た何かを持っているのですか? – JackTurky
私は1000ページをチェックすることができません:P:P – argi