1
Spark Dataframeでは、最適化のためのフードの説明の中で以下を探しています。DataframeはExecutorからRDBMSに直接接続するか、Driverを経由しますか?
- データフレームは特別なタイプのRDDであり、内部にRDDが含まれています。これらのRowRDDは、エグゼキュータにまたがって広がっています。
- 我々は執行行RDDSは、ドライバとOracleはJDBC接続を使用してに書き込むにEXECUTORから転送されます(特にYARN-CLIENTモードで実行中)。(これは本当ですか?)
- からこれらのRowRDDsを書くときYARN-CLUSTERモードで同じコードを実行すると、行RDDはExecutorから直接Oracleに書き込まれます。これは速いアプローチかもしれませんが、利用可能なJDBC接続はプロセスを制限したり減速させたりする可能性があります。
私はこのフードの下で起こることが親切にこれを検証し、間違っている場合は私を修正します。これは大きなパフォーマンス要因に影響します。
ありがとうございます。