私が行っている実験のためにいくつかのデータを収集しようとしています。多くのAmazon EC2インスタンスで実行してS3にデータをダンプして後で分析できるようにするためのWebスクレイパーがあります。EC2 webcrawlers
現在、私はrubyで書かれたコードを持っていますが、別の言語で簡単に書くことができます。それをどうやってやりますか? S3への書き込みについては
私が行っている実験のためにいくつかのデータを収集しようとしています。多くのAmazon EC2インスタンスで実行してS3にデータをダンプして後で分析できるようにするためのWebスクレイパーがあります。EC2 webcrawlers
現在、私はrubyで書かれたコードを持っていますが、別の言語で簡単に書くことができます。それをどうやってやりますか? S3への書き込みについては
がRightawsの宝石を使用し、それが本当に良いS3インタフェースを持っています http://rightaws.rubyforge.org/right_aws_gem_doc/
あなたのプロセスは、おそらく次のようになります。
また、データベースを使用してください。それから、すべてが同じ場所にあります。スキーマレスなので、mongodbのようなものを使うことができますが、あなたはまだ有用なインデックス(例えば、ドメインインデックス)を持つことができます。これは数百万行まで有効です。
s3にものを入れると、フラットファイルになります。そのため、相手側でデータを検索するのは時間がかかります。
ありがとうございます。 s3でデータベースを作成する方法はありますか、それともEC2インスタンスの1つで作成する必要がありますか? – Cyrus
scrapyは最適なツールの一つであり、市場でのスクレーパーがたくさんあります。どのようにあなたは何をやって行くだろう その非常に単純
scrapinghub.com
?何が問題なの?コードを別の言語で書いていますか?特定の問題に対する解決策を尋ねる必要があります。 –