私はHDFSディレクトリから複数のファイルを読んでいて、ファイルごとに生成されたデータを使用して印刷されます。書き込みRDDデータ - スカラ
frequencies.foreach(x => println(x._1 + ": "+x._2))
そして、印刷データ(のためでありますFILE1.TXT):
:'text': 45
'data': 100
'push': 150
キー(FILE2.TXT)のような他のファイルのために異なる場合があります
'data': 45
'lea': 100
'jmp': 150
すべてのファイルでキーが同じであるとは限りません。私はすべてのファイルデータは次の形式で.csvファイルに書き込まれるようにしたい:
Filename text data push lea jmp
File1.txt 45 100 150 0 0
File2.txt 0 45 0 100 150 ....
誰かがこの問題の解決策を見つける私を助けてくださいことはできますか?
df.write.csvを使って 'finalDf'をcsvに書き込むことができず、このエラーが発生しました:'値csvはorg.apache.spark.sql.DataFrameWriterのメンバーではありません。ありがとう@philantrovert –
Spark 1.6を使用している場合、アプリケーションにdatabricks csv jarを追加する必要があります。そしてコードは 'df.write.format(" com.databricks.spark.csv ")'に変わります。もっと詳しい情報はこちら:https://github.com/databricks/spark-csv – philantrovert
申し訳ありませんが、私はそれについてたくさん調べており、このgithubリポジトリからjarファイルを作成する方法や、アプリケーションに追加する方法を見つけられませんでした。もしあなたがこれらのステップをここで言及すれば大きな助けになるでしょう..ありがとう@philatrovert –