DataframeはExecutorからRDBMSに直接接続するか、Driverを経由しますか？

Spark Dataframeでは、最適化のためのフードの説明の中で以下を探しています。DataframeはExecutorからRDBMSに直接接続するか、Driverを経由しますか？

データフレームは特別なタイプのRDDであり、内部にRDDが含まれています。これらのRowRDDは、エグゼキュータにまたがって広がっています。
我々は執行行RDDSは、ドライバとOracleはJDBC接続を使用してに書き込むにEXECUTORから転送されます（特にYARN-CLIENTモードで実行中）。（これは本当ですか？）
からこれらのRowRDDsを書くときYARN-CLUSTERモードで同じコードを実行すると、行RDDはExecutorから直接Oracleに書き込まれます。これは速いアプローチかもしれませんが、利用可能なJDBC接続はプロセスを制限したり減速させたりする可能性があります。

私はこのフードの下で起こることが親切にこれを検証し、間違っている場合は私を修正します。これは大きなパフォーマンス要因に影響します。

ありがとうございます。

2017-02-08 Aru

各エグゼキュータは独自の接続を行います。

val df = (spark.read.jdbc(url=jdbcUrl, 
    dbtable="employees", 
    columnName="emp_no", 
    lowerBound=1L, 
    upperBound=100000L, 
    numPartitions=100, 
    connectionProperties=connectionProperties)) 
display(df)

Spark UIでは、numPartitionsによって起動されるタスクの数が決まることがわかります。各タスクはエグゼキュータ間で分散され、これによりJDBCインタフェースを介した読み書きの並列性が向上します。上流のガイドを参照して、fetchsizeオプションなどのパフォーマンスに役立つその他のパラメータを調べてください。

出典

2017-08-24 22:30:15 Tagar

DataframeはExecutorからRDBMSに直接接続するか、Driverを経由しますか？

答えて

関連する問題