MongoSparkを使用して、MongoDBデータベースからJSONデータをSpark DataFrameとして読み込みます。今私は、DataFrameにあるJSONデータを寄木張りのファイルとして書きたいと思います。それは魅力的です。しかし、私は、生成された寄木張りファイルの圧縮に関連するオプションを設定するのに苦労しています。私はコーデックとしてSnappyを使いたいのですが、生成されたParquetファイルのブロックサイズを指定して "より大きな"ファイルを生成したいと思います。私は今までにどのように多くの異なるアプローチを試したのか分かりませんが、数多くあります。 .option(...)
ステートメントをDataFrame.write()
メソッドに「連鎖」するだけでこれが簡単にできると思っていましたが、今まで私は努力していませんでした。Spark DataFramを寄木張りとして保存する際のオプションを指定します。
私はここで間違っていますか?
sqlContext.setConf( "spark.sql.parquet.compression.codec" "きびきび") –