Builtwith.comと同様のサービスは、SalesForceやNationBuilderなどの特定のテクノロジで構築されたドメインのリストを有料で提供します。私が興味を持っている技術には、内蔵されていないものがあります。恐らく市場の存在が小さすぎるからです。技術を使用して構築されたベストクローラ
テクノロジがサイトに使用されていることを示すページの特定の署名がわかっている場合、できるだけ多くのサイトを識別するための最良の方法は何ですか?私たちは1000年代があることを期待しており、トラフィックによってトップ10Mのサイトに興味を持っています。
私はオープンソースのWebcrawlerのリストを持っています - http://bigdata-madesimple.com/top-50-open-source-web-crawlers-for-data-mining/ - 私のユースケースはクローラの通常の基準の多くとは異なっているようですが、この署名を持つドメインの「ヒット」だから、速くする必要はありませんが、ヒットが見つかるまでサイトのすべてのページをチェックし、責任あるクロールの慣行などを使う必要があります。何がベストですか?
クローラを微調整して実行する代わりに、ユーザーの目に見えるコンテンツではなく、より良いアプローチとなるように、Googleや他の検索エンジンでページの特性を見つける方法があります。
CommonCrawlのデータセットとサンプルプロジェクトは、必要なものと同じように見えます。私は他の答えを少し待つつもりですが、おそらくこれを受け入れるでしょう。あなたのオープンソースの貢献に感謝します! –
[Googleハッキング](https://en.wikipedia.org/wiki/Google_hacking)でページをキャッチできない限り、[RSSフィード](https://draft.li)の一般的なクロールをマイニングしている例を見てください/ blog/2016/03/21/rss-use-on-the-web /)と[Wordpressのテーマ](https://medium.com/@paulrim/mining-common-crawl-with-php-39e14082c55c)を参照してください。 –