NOSQLデータをSparkノードにロードする

NoSQLソースからSparkにデータをロードするときに何が起こるのかを理解しようとしています。すなわち、レコードをドライバにロードしてワーカーノードに配布しようとしますか、それともレコードをすべてのワーカーノードに同時にロードしますか？。基本的には、複数のノードで同じレコードが確実に処理されないようにするには、データを並列にロードする方法はありますか？並列処理でない場合は、同じjsonを ".json"ファイルのヘルプに書き込みます（各行がレコードである場合）NOSQLデータをSparkノードにロードする

出典

2016-10-27 user3637401

常に作業者に直接ロードされます。データのソースとその格納方法に応じて、並列にロードすることができます。データがロードされると、重複しない行でデータが断片化されるため、同じデータを2回処理することを心配する必要はありません。ファイル形式は関係ありません。どのデータソースから読み込んでいますか（mongo、cassandra、hbase）？あなたが私にソースシステムを教えれば、より良い答えを与えることができます。

出典

2016-10-27 05:02:02

回答ありがとうございます。私はCloudantからロードしようとしています...これについての洞察は非常に役に立つでしょう。 – user3637401

NOSQLデータをSparkノードにロードする

答えて

関連する問題