私のクローラはすべてのウェブサイトをクロールしており、そこからメタデータ情報を取得しています。 その後、URLをサニタイズしてAmazon RDSに保存するスクリプトを実行します。クローラからの一時データを格納するために使用するデータストアは何ですか?
私の問題は、サニタイズ目的でデータストアに使用するデータストア(不要なURLを削除する)です。私はクローラがAmazon RDSを叩いて遅くなることを望んでいません。
Amazon SimpleDBを使用すべきですか?次にSimpleDBから読み込み、URLをサニタイズしてAmazon RDSに移動します。
問題は私がリストに保存することができますが、サニタイズスクリプトは他のマシンに常駐する独立した作業者になる可能性があります。私はsimplenbへのディスクアクセスが問題であるとは思わない。主な関心事は、フロントエンドにも直面しているので、RDSです。私はバッチで定期的にデータをサニタイズする予定でした。それは良いと思いますか? – Sarvesh
サニタイザスクリプトが単純なDBからURLを読み取るときDBから読み取ったURLの数をどのように管理するのか、すでに読み込んだダーティURLをどのように削除する予定ですか? – Drew
私はおそらくsimpleedbからURLを取得し、きれいにして有効なものだけをRDSに移動するためにリストを使うでしょう。私はそれが有効であるか、RDSに更新されたかどうか、各レコードのsimpledbのフラグを更新しています。 – Sarvesh