2016-04-28 11 views
7

DataFrameをSparkからMySQLに書き込む必要がありますが、挿入が遅すぎます。どうすれば改善できますか?SparkからMySQLへのJDBC書き込み速度が遅い

以下のコード:

df = sqlContext.createDataFrame(rdd, schema) 
df.write.jdbc(url='xx', table='xx', mode='overwrite') 
+0

スパーク1.6.0 [バッチインサートをサポート](https://issues.apache.org/jira/browse/SPARK-10040)ので、古いバージョンのアップグレードを使用している場合。何らかの理由でアップグレードできない場合は、DataFrameからRDDを取得し、foreachPartitionループで手動で一括挿入します。 –

+0

私はSpark 1.6.1を使用していますが、書き込み速度は約100レコード/秒です。ここでデータフレームの再パーティション化は役に立ちますか? –

+0

デフォルトのバッチサイズは1000です。これを増やすと処理が速くなりますか?私は今試してみよう! (これは 'batchsize'プロパティで設定できます) –

答えて

関連する問題