2010-12-01 1 views
69

クロールとWebスクレイピングの違いはありますか?ウェブクロールとウェブスクレイピングの違いは何ですか?

違いがある場合は、カスタマイズされた検索エンジンで後で使用するためのデータベースを提供するために、いくつかのWebデータを収集するための最良の方法は何ですか?

+13

ページからコンテンツを引き出すことを意味します。クロールとは、多数のページに到達するためのリンクをたどることを意味します。クローラは掻き分けなければなりません。それは2つの理由があります:1つは有用なクローラがページを何も検索しないだけでなく、情報を収集します(たとえば、検索エンジン用の検索インデックスを作成するための索引語)。第二に、他のページへのリンクを発見する必要があります。 – Kaz

答えて

90

クロールは本質的にGoogle、Yahoo、MSNなどが行うことで、あらゆる情報を探します。スクレイピングは一般的に特定のウェブサイトを対象としています。価格比較のために、コードはかなり異なっている。

通常スクレーパーは、それがこすることになっているウェブサイトに特注され、すなわち、(良い)クローラがしないだろうことをやって、次のようになります。

  • はrobots.txtのための点を持っていません
  • データでフォームを送信ブラウザとして自身を識別
  • Javascriptを(ユーザーのよう 行為に必要な場合)を実行し
+1

@Benウェブスクレイパーがブラウザとして自分自身を識別する方法について、どこでもっと知ることができますか? Wikipediaは「低レベルのHTTP(Hypertext Transfer Protocol)を実装する」と述べていますが、実際の動作の詳細を実際に知りたいと思います。 – Abdul

+1

@Abdul HTTPリクエストでは、 "User-Agent"プロパティを指定して自分自身を識別することができます。たとえば、これを「Mozilla/5.0 ... Chrome」に設定したり、Chromeで使用するものを設定すると、スクレーパーはサーバーのブラウザのように見えます。 –

6

私の知る限りでのWebクロールをGoogleが何をするかである - それはスクレイピングは、Webページのprogamatic分析だろう

のWebにリンクするウェブサイトのリンクを見て、そのサイトのレイアウトのデータベースを構築し、サイトを一周EGはBBCの天気を読み込み、天気予報を捨てて他の場所に配置するか、別のプログラムで使用します。

48

はい、違います。実際には、両方を使用する必要があります。

(これまでのところ、他の回答はその本質には達していないので、例を使用していますが、区別を明確にしていないためです)。

Webスクレイピングは、最小限の定義を使用するために、Webドキュメントを処理してそこから情報を抽出するプロセスです。 WebクローリングをせずにWebスクレイピングを実行できます。

最小限の定義を使用するWebクローリングは、シードURLのリストから始まるWebリンクを繰り返し検索して取得するプロセスです。厳密に言えば、ウェブクローリングを行うために、あなたは(。URLのを抽出する)

他の回答で述べたいくつかの概念をクリアするにはこするウェブある程度の操作を行う必要があります:

  • robots.txtをすることを意図していますウェブページにアクセスする自動プロセスに適用されます。したがって、クローラーとスクレーパーの両方に適用されます。

  • 「適切な」クローラーとスクレーパーは、どちらも正確に識別する必要があります。

いくつかの参照:

0

これら二つの違いは間違いなくあります。 1つはサイトを訪問し、もう1つは抽出することを指します。

+0

あなたはもっと多くの情報も試してみることができます...確かに助けになるでしょう... – NREZ

1

これらの2つの間に基本的な違いがあります。 もっと深く掘り下げたい人には、これをお読みください。 Web scraper, Web Crawler

この投稿は詳細になります。良い要約は、記事から、このチャートである: chart showing difference between scraping and crawling

+1

[リンクのみの回答](http://meta.stackoverflow.com/tags/link-only-answers/info)は落胆しているので、SOの回答は解決策の検索の終点でなければなりません(時間の経過とともに古くなる傾向がある参照の途中停止)。リンクを参考にして、ここにスタンドアロンの概要を追加することを検討してください。 – kleopatra

+0

ちょっと@リンクが壊れています...他のソース – konzo

0

我々は、我々は我々が興味を持っているすべてのページを訪問する必要がどのくらいの時間を見積もるために、ページ間の接続は何をしている、サイトが構成されているどのように広い視野を持っているサイトをクロールスクレイピングはしばしば実装するのが難しいですが、データ抽出の本質です。いくつかの長方形が切り取られた紙でウェブサイトをカバーするときの掻き取りを考えてみましょう。私たちは必要なものだけを見ることができ、ナビゲーションやフッタ、広告などのすべてのページに共通するウェブサイトの部分や、コメントやブレッドクラムなどの無関係な情報を完全に無視します。 クロールとスクラップの違いの詳細については、こちらをご覧ください:https://tarantoola.io/web-scraping-vs-web-crawling/

関連する問題