現在、サードパーティのデータベースとアプリケーションを使用しているプロジェクトで作業しています。これまでのところ、TESTと私たちのデータベース間のインターフェイスデータを正常に処理することができました。しかし、大量のデータ(行100,000行、列10個など)を抽出するときに問題が発生していて、何らかの理由(停電、強制退出など)、行方不明この種のシナリオではデータの重複が発生しています。SQL Serverのインターフェイステーブル構造に問題がありました
これらのシナリオを処理するための提案をお願いします。ありがとうございました!
は、ここに私たちの現在のインタフェース構造
だOurDB -> Interface DB -> 3rdParty DB
OurDB:我々はInterfaceDb
InterfaceDBに(偽ビット列で)OurDB
からレコードを抽出していますOurDB
からレコードを挿入した後、 OurDBビット列を真として更新する
3rdPartyDB:すべてのレコードを抽出して削除します(すべてのレコードが抽出用であることを前提としています)。
これを達成するためにどのようなツールを使用していますか? SQLのインポート/エクスポート機能ですか、他のETLを使用していますか? SSISなどのETLツールを使用すると、データをよりよく制御し、停電や強制終了を回避しながら、すばやくより適切なローディングを実行できます。物事が進行している様子については、現在のレコードにフラグを立てて削除するモデルが良いです。同様に、最新のレコードのみを取るというチェックをしていると仮定しています。 – VKarthik
こんにちは@VKarthikは遅く返事を申し訳ありません。これまでは、これを行うためにSQLとC#アプリケーションしか使用していませんでした。重複したデータを避けるために、抽出前に他にどのようなチェックが必要なのか、何か提案がありますか?私はまだSSISを見たことがありませんが、それについての悪い研究はこの提案に感謝していますbtw – zxc