2つの大きなデータセットを比較できるリコンシリエーションツールを作成するように求められました。リコンシリエーションツール[2つの大きなデータセットの比較]
Excelの各行には40〜50列が含まれ、各列レベルで比較されるレコードです。各ファイルには300万件近くのレコードまたは約4〜5 GBのデータが格納されています[データはソート形式ではありません]
ヒントを得ることができたらうれしいです。 は、以下の技術が良いフィット
- Apacheのスパークすることができます
- Apacheのスパーク+のIgnite [時間フレームの間でのリアルタイムの調整を想定した]
- のApacheのIgnite + ApacheのHadoopの
- で実施構築するために、任意の提案 - ハウスツール。
比較手段を詳しく教えてください。 –
たとえば、各行が一致し、各行が一致せず、それについてのレポートを準備すると言う2つの大きなcsvの比較?もしそうなら、あなたはspark rdd loadを使うことができます(sc。テキストファイル)2つのファイルを2つのrddにまとめ、簡単な方法で比較してください。 –
@@ Ramお返事ありがとうございます。これに加えて、レコード内のフィールドが一致しないレポートも作成する必要があります。 1.左ミス(つまり、右から欠けているcsv1レコード)2.右ミス(csv1からCSV2レコードが欠けている)3.両方のcsvファイルでレコードが使用可能な場合(レコードにはプライマリテーブル内のキー)をクリックします。 –