クローラからの一時データを格納するために使用するデータストアは何ですか？

私のクローラはすべてのウェブサイトをクロールしており、そこからメタデータ情報を取得しています。その後、URLをサニタイズしてAmazon RDSに保存するスクリプトを実行します。クローラからの一時データを格納するために使用するデータストアは何ですか？

私の問題は、サニタイズ目的でデータストアに使用するデータストア（不要なURLを削除する）です。私はクローラがAmazon RDSを叩いて遅くなることを望んでいません。

Amazon SimpleDBを使用すべきですか？次にSimpleDBから読み込み、URLをサニタイズしてAmazon RDSに移動します。

出典

2011-07-12 Sarvesh

いつでもdbを使用できますが、問題はディスクアクセスによるものです。毎回あなたはディスクのアクセスをして一連のURLを読みとり、それらをサニタイズし、別のディスクアクセスである別のデータベースに書き出します。このプロセスは、パフォーマンスが心配されていない場合でもOKです。

リストのような単純なデータ構造を使用したり、束を保管したり、URLがスレッシュホールドに達したときに起動するスレッドがあると、これらのURLをAmazonに書き込むことができますRDS。

出典

2011-07-12 18:25:56 Drew

問題は私がリストに保存することができますが、サニタイズスクリプトは他のマシンに常駐する独立した作業者になる可能性があります。私はsimplenbへのディスクアクセスが問題であるとは思わない。主な関心事は、フロントエンドにも直面しているので、RDSです。私はバッチで定期的にデータをサニタイズする予定でした。それは良いと思いますか？ – Sarvesh

サニタイザスクリプトが単純なDBからURLを読み取るときDBから読み取ったURLの数をどのように管理するのか、すでに読み込んだダーティURLをどのように削除する予定ですか？ – Drew

私はおそらくsimpleedbからURLを取得し、きれいにして有効なものだけをRDSに移動するためにリストを使うでしょう。私はそれが有効であるか、RDSに更新されたかどうか、各レコードのsimpledbのフラグを更新しています。 – Sarvesh

クローラからの一時データを格納するために使用するデータストアは何ですか？

答えて

関連する問題