私はScalaとSparkを使用しており、XMLファイルを単一の文字列として読み込みたいと考えています。 これを行うには、すっきりとしたScala-ishの方法を見つけるのに苦労しています。Scala/SparkでHDFSからテキストファイルを読む
私が最初に考えたのは
val fileContents: RDD[String] = sparkContext.textfile(pathToFile)
val combinedContents: String = fileContents.reduce((line1, line2) => line1 + line2)
を使用していた。しかし、私は、これは文字列に含まれているXMLの整合性を保つことが重要である行の順序を維持する心配です。
私がHDFSでファイルを読むためにオンラインで見つけたその他のものは、廃止予定のメソッドを使用することです。何か案は?
https://github.com/databricks/spark-xml – philantrovert
これはコスト(サポート、と承認が付属していますように私は、私は非標準のライブラリを使用しないようしたいことができる場合管理など) xml管理はアプリケーションの後半にあり、文字列を入力する必要があります。私は現時点でxmlであることに本当に気をつけませんが、行の順序が重要であることを説明するだけです。 –
なぜ 'fileContents.collect'はそれをしないのですか? – philantrovert