EC2 webcrawlers

私が行っている実験のためにいくつかのデータを収集しようとしています。多くのAmazon EC2インスタンスで実行してS3にデータをダンプして後で分析できるようにするためのWebスクレイパーがあります。EC2 webcrawlers

現在、私はrubyで書かれたコードを持っていますが、別の言語で簡単に書くことができます。それをどうやってやりますか？ S3への書き込みについては

2011-10-20 Cyrus

？何が問題なの？コードを別の言語で書いていますか？特定の問題に対する解決策を尋ねる必要があります。 –

がRightawsの宝石を使用し、それが本当に良いS3インタフェースを持っています http://rightaws.rubyforge.org/right_aws_gem_doc/

あなたのプロセスは、おそらく次のようになります。

また、データベースを使用してください。それから、すべてが同じ場所にあります。スキーマレスなので、mongodbのようなものを使うことができますが、あなたはまだ有用なインデックス（例えば、ドメインインデックス）を持つことができます。これは数百万行まで有効です。

s3にものを入れると、フラットファイルになります。そのため、相手側でデータを検索するのは時間がかかります。

2011-10-20 16:22:37

ありがとうございます。 s3でデータベースを作成する方法はありますか、それともEC2インスタンスの1つで作成する必要がありますか？ – Cyrus

scrapyは最適なツールの一つであり、市場でのスクレーパーがたくさんあります。どのようにあなたは何をやって行くだろうその非常に単純

scrapinghub.com

2016-06-25 12:10:13 Nishank

答えて