javaを使用してWebページをクロールし、ページの特定のコンテンツを抽出するクローラを設計したいと考えています。私はこれをどのようにするべきですか?私は新しく、クローラーの設計を始めるためのガイダンスが必要です。Webページを解析してコンテンツを抽出する
例えば、私がコンテンツにアクセスしたい以下のようなものが埋め込まれているWebページからの「赤は私の好きな色である」:
< div>の赤は私の好きな色 </divのです>
javaを使用してWebページをクロールし、ページの特定のコンテンツを抽出するクローラを設計したいと考えています。私はこれをどのようにするべきですか?私は新しく、クローラーの設計を始めるためのガイダンスが必要です。Webページを解析してコンテンツを抽出する
例えば、私がコンテンツにアクセスしたい以下のようなものが埋め込まれているWebページからの「赤は私の好きな色である」:
< div>の赤は私の好きな色 </divのです>
推奨読書
静的ページ:
jsoup - HTMLパーサとコンテンツ操作ライブラリ
マインドあなたは、ページの多くは、をロードした後はJavaScript を使用してコンテンツを動的に作成します。そのような場合、「静的ページ」アプローチは役に立たないので、「Webオートメーション」カテゴリのツールを検索する必要があります。
Seleniumはそのようなツールセットです。共通のブラウザを使用してページを開き、ページを移動するにはブラウザを使用することができますが、phantomjsを使用して「ヘッドレスブラウザ」(UIなし)を使用することもできます。
幸運にも、あなたに先んじて多くの読書とコーディングがあります。 [例について編集]
この技術は掻き取りウェブと呼ばれる - の例についてGoogleとそれを使用します。私の検索で結果の一例として提供され、次の、私は彼ら「静的なウェブページの廃棄」については
ためのいかなる保証または推薦を提供しない - ここでは、「動的ページ」についてはan example using jsoup
だ - ここexample using Selenium
ありがとうございました...あなたが共有しているリンクは役に立つと思われます。多くの便利な方法...私はそれらを試してみます。私は、ウェブページから特定のコンテンツを引き出すことが、トリップのレビューコメントを引き出すのと同じように一般的であることを発見しました。私は何も見つけられません...少なくとも私が始めるのは簡単になります。 – user2720919
@ user2720919 "利用可能なサンプルがありますか?"私はネット上で見つけたいくつかの例を使って自分の投稿を更新しました。 "ありがとうございました...あなたが共有しているリンクは便利で多くの有用な方法と思われます..."通常、感謝は答えをアップアップして表現され、*あなたの質問に完全に答えたら*、答えを受け入れる/答えの上側の左の矢印、私はあなたがアイデアを得るだろうと確信している) –
です....各ページを取得してテキストとして保存するだけですか?大変申し訳ございませんが、あなたの質問は理にかなっていません。 – theonlygusti
私はより一般的なWebクローラがhref属性を使用してソースウェブサイトからURLを拾い読みするように特定の内容を引っ張るより多くのことを意味します....同様に、私は査読者のコンテンツのような他のコンテンツを引き出すことに興味があります。意味がある? – user2720919