2016-10-27 3 views
1

NoSQLソースからSparkにデータをロードするときに何が起こるのかを理解しようとしています。すなわち、レコードをドライバにロードしてワーカーノードに配布しようとしますか、それともレコードをすべてのワーカーノードに同時にロードしますか? 。基本的には、複数のノードで同じレコードが確実に処理されないようにするには、データを並列にロードする方法はありますか? 並列処理でない場合は、同じjsonを ".json"ファイルのヘルプに書き込みます(各行がレコードである場合)NOSQLデータをSparkノードにロードする

答えて

1

常に作業者に直接ロードされます。データのソースとその格納方法に応じて、並列にロードすることができます。データがロードされると、重複しない行でデータが断片化されるため、同じデータを2回処理することを心配する必要はありません。ファイル形式は関係ありません。どのデータソースから読み込んでいますか(mongo、cassandra、hbase)?あなたが私にソースシステムを教えれば、より良い答えを与えることができます。

+0

回答ありがとうございます。私はCloudantからロードしようとしています...これについての洞察は非常に役に立つでしょう。 – user3637401

関連する問題