2016-08-12 11 views
1

jsonファイルを読み込み、SQLContextを使用して読み込み時にスキーマを適用しようとしていますが、null許容部分が無視されるようです。 私はこのようなスキーマに何か持っている:[今すぐPysparkはJsonファイルの読み込みでNullabilityを強制します

StructType(List(StructField(some_field,StringType,false), StructField(some_other_field,StringType,false)) 

を、私はJSONファイルを読み込み、そのように上にそのスキーマを強制したい:

sqlc = SQLContext(sc) 
df = sqlc.read.load("path/to/file", format="json", schema=schema) 

フィールド名とデータ型がいるように見えますうまく、しかし、関係なく、私はNULL値を許可するかどうかのために入れるものを、すべての列のような真= NULL可能でもない仕事:

root 
|--some_field: string (nullable = true) 
|--some_other_field: string (nullable = true) 

は、どのように私は、読み取りの私の列にNULL値を許可するかどうかを強制することができますか?

FYI。私はPython 2.7、pyspark 1.5.2を使用しています

答えて

0

私が見つけた研究によると、これはSparkのバグで、Spark 2.0.0まで解決されませんでした。スパーク2.0.0以降を使用している誰かがこのバグを確認することができれば、私は大好きだ固定され、それまで、ここでの問題を議論するのApacheのJIRAチケットは次のとおりです。

https://issues.apache.org/jira/browse/SPARK-11319

関連する問題