2017-04-22 2 views
0

SparkConfでエンコードを設定する方法はありますか?私はアラビア語のデータを処理するSparkでJavaアプリケーションを構築しています。 Spark MasterをLocal [*]に設定したdev環境で実行すると、データが正しく処理されます。ただし、JARを準備してSpark Clusterに送信すると、データにエンコーディングが必要なように見えます。Java Spark Data Encoding

--conf spark.driver.extraJavaOptions=-Dfile.encoding=UTF-8 

スパークでの構成として提出したが、うまくいきませんでした:
は、私が使用していました。
OS:Windowsの10 のJava 1.8.0.131
スパーク2.1.0

答えて

1

テキストデータを読み取るため、スパークは、UTF-8エンコーディングを想定している基礎となるのHadoopのInputFormatを、使用しています。データが実際にUTF-8である場合は、正しく読み取られるはずです。そうでない場合は、Sparkに渡す前に変換する必要があります。

他の文字エンコードの処理が問題(SPARK-1849)が発生しましたが、「修正されません」とマークされています。

データはローカルジョブでは機能しますが、クラスタジョブでは機能しませんが、ここで誰かが助けることができるようになる前に詳細を入力する必要があります。クラスタとクライアントノードでどのようなOSを使用していますか?エンコーディングに問題があることをどのように知っていますか?

+0

ご回答いただきありがとうございます。私は環境の詳細で質問を更新しました。 –