1
NoSQLソースからSparkにデータをロードするときに何が起こるのかを理解しようとしています。すなわち、レコードをドライバにロードしてワーカーノードに配布しようとしますか、それともレコードをすべてのワーカーノードに同時にロードしますか? 。基本的には、複数のノードで同じレコードが確実に処理されないようにするには、データを並列にロードする方法はありますか? 並列処理でない場合は、同じjsonを ".json"ファイルのヘルプに書き込みます(各行がレコードである場合)NOSQLデータをSparkノードにロードする
回答ありがとうございます。私はCloudantからロードしようとしています...これについての洞察は非常に役に立つでしょう。 – user3637401