2017-03-28 16 views
1

Builtwith.comと同様のサービスは、SalesForceやNationBuilderなどの特定のテクノロジで構築されたドメインのリストを有料で提供します。私が興味を持っている技術には、内蔵されていないものがあります。恐らく市場の存在が小さすぎるからです。技術を使用して構築されたベストクローラ

テクノロジがサイトに使用されていることを示すページの特定の署名がわかっている場合、できるだけ多くのサイトを識別するための最良の方法は何ですか?私たちは1000年代があることを期待しており、トラフィックによってトップ10Mのサイトに興味を持っています。

私はオープンソースのWebcrawlerのリストを持っています - http://bigdata-madesimple.com/top-50-open-source-web-crawlers-for-data-mining/ - 私のユースケースはクローラの通常の基準の多くとは異なっているようですが、この署名を持つドメインの「ヒット」だから、速くする必要はありませんが、ヒットが見つかるまでサイトのすべてのページをチェックし、責任あるクロールの慣行などを使う必要があります。何がベストですか?

クローラを微調整して実行する代わりに、ユーザーの目に見えるコンテンツではなく、より良いアプローチとなるように、Googleや他の検索エンジンでページの特性を見つける方法があります。

答えて

2

オープンソースのWebクローラーを実際に調整することができます。あなたが掲示したリンクは上記のリソースの負荷を除いていますが、管理されていないものと分散されていないものを削除すると、あまり多くは残されません。定義すると、探しているシグネチャがどのサイトに含まれているかわからないので、上位10Mサイトのリストを取得してクロールする必要があります。これはかなりの操作ですが、 Apache NutchまたはStormCrawler(あなたが投稿したリンクには載っていません)[私はNutchとSCの著者のコミッタです。]です。

CommonCrawl datasetsを処理する別の方法は、安価で迅速な方法です。彼らは月ごとに大規模なWebクローリングデータを提供し、あなたのためにWebをクロールする作業を行います - もちろん、データセットには完全なカバレッジはありませんが、これはあなたが得られるほど良いものですもしあなたが自分自身をクロールするならば。また、大規模なデータの署名を検出するための初期の前提とコードを確認する良い方法です。私は通常、ウェブサイズのクロールを開始する前にCCを処理することを推奨します。 CCウェブサイトには、ライブラリーとそのコードを処理するための詳細が含まれています。

クライアントのCCを処理するときはもちろん、ほとんどの人は、MapReduceを使用して処理を実装し、AWS EMRで実行します。コストはもちろん処理の複雑さにも依存しますが、ハードウェアの予算は通常数百ドルです。 DZoneは以来CommonCrawlを使用しての私のブログの記事のいずれかを再版している:

希望これは

EDITに役立ちます。

+0

CommonCrawlのデータセットとサンプルプロジェクトは、必要なものと同じように見えます。私は他の答えを少し待つつもりですが、おそらくこれを受け入れるでしょう。あなたのオープンソースの貢献に感謝します! –

+1

[Googleハッキング](https://en.wikipedia.org/wiki/Google_hacking)でページをキャッチできない限り、[RSSフィード](https://draft.li)の一般的なクロールをマイニングしている例を見てください/ blog/2016/03/21/rss-use-on-the-web /)と[Wordpressのテーマ](https://medium.com/@paulrim/mining-common-crawl-with-php-39e14082c55c)を参照してください。 –

関連する問題