2011-07-12 8 views
3

私のクローラはすべてのウェブサイトをクロールしており、そこからメタデータ情報を取得しています。 その後、URLをサニタイズしてAmazon RDSに保存するスクリプトを実行します。クローラからの一時データを格納するために使用するデータストアは何ですか?

私の問題は、サニタイズ目的でデータストアに使用するデータストア(不要なURLを削除する)です。私はクローラがAmazon RDSを叩いて遅くなることを望んでいません。

Amazon SimpleDBを使用すべきですか?次にSimpleDBから読み込み、URLをサニタイズしてAmazon RDSに移動します。

答えて

1

いつでもdbを使用できますが、問題はディスクアクセスによるものです。毎回あなたはディスクのアクセスをして一連のURLを読みとり、それらをサニタイズし、別のディスクアクセスである別のデータベースに書き出します。このプロセスは、パフォーマンスが心配されていない場合でもOKです。

リストのような単純なデータ構造を使用したり、束を保管したり、URLがスレッシュホールドに達したときに起動するスレッドがあると、これらのURLをAmazonに書き込むことができますRDS。

+0

問題は私がリストに保存することができますが、サニタイズスクリプトは他のマシンに常駐する独立した作業者になる可能性があります。私はsimplenbへのディスクアクセスが問題であるとは思わない。主な関心事は、フロントエンドにも直面しているので、RDSです。私はバッチで定期的にデータをサニタイズする予定でした。それは良いと思いますか? – Sarvesh

+0

サニタイザスクリプトが単純なDBからURLを読み取るときDBから読み取ったURLの数をどのように管理するのか、すでに読み込んだダーティURLをどのように削除する予定ですか? – Drew

+0

私はおそらくsimpleedbからURLを取得し、きれいにして有効なものだけをRDSに移動するためにリストを使うでしょう。私はそれが有効であるか、RDSに更新されたかどうか、各レコードのsimpledbのフラグを更新しています。 – Sarvesh

関連する問題