2011-10-20 11 views
0

私が行っている実験のためにいくつかのデータを収集しようとしています。多くのAmazon EC2インスタンスで実行してS3にデータをダンプして後で分析できるようにするためのWebスクレイパーがあります。EC2 webcrawlers

現在、私はrubyで書かれたコードを持っていますが、別の言語で簡単に書くことができます。それをどうやってやりますか? S3への書き込みについては

+0

?何が問題なの?コードを別の言語で書いていますか?特定の問題に対する解決策を尋ねる必要があります。 –

答えて

1

がRightawsの宝石を使用し、それが本当に良いS3インタフェースを持っています http://rightaws.rubyforge.org/right_aws_gem_doc/

あなたのプロセスは、おそらく次のようになります。

  • は、いくつかの中間上にデータ
  • 書き込みを収集します各ノード
  • ファイルをS3に送信する(固有の命名規則を使用)
  • リピート

また、データベースを使用してください。それから、すべてが同じ場所にあります。スキーマレスなので、mongodbのようなものを使うことができますが、あなたはまだ有用なインデックス(例えば、ドメインインデックス)を持つことができます。これは数百万行まで有効です。

s3にものを入れると、フラットファイルになります。そのため、相手側でデータを検索するのは時間がかかります。

+0

ありがとうございます。 s3でデータベースを作成する方法はありますか、それともEC2インスタンスの1つで作成する必要がありますか? – Cyrus

0

scrapyは最適なツールの一つであり、市場でのスクレーパーがたくさんあります。どのようにあなたは何をやって行くだろう その非常に単純

scrapinghub.com