2017-03-22 14 views
1

10000を超える異なる値を持つ列をピボットしようとしています。個別値の最大数のSparkのデフォルトの制限は10000であり、私はこのエラーをpysparkのpivotMaxValuesを設定するには?

を受信して​​いピボット列COLUMN_NUM_2以上10000の異なる値を有し、これはエラーを示すことができます。これが意図されていた場合は、spark.sql.pivotMaxValuesを少なくともピボットカラムの別個の値の数に設定してください。

これをPySparkでどのように設定しますか?

答えて

1

このパラメータは、Sparkインタプリタで追加/設定する必要があります。

EMR(AWS)クラスタでZeppelinノートブックを使用していて、同じエラーメッセージが表示され、インタープリタでパラメータを追加した後に動作しました。

希望します。

+0

私はSparkクラスタを起動する前に問題を解決しました。 KEYはspark.sql.pivotMaxValuesであり、VALUEを100000に設定しています – technOslerphile

関連する問題