私はディレクトリに複数のファイルを持ち、各ファイルには複数の行にまたがるテキストが含まれています。 現在私はスパークデータセット(> 2.0)へのすべてのこれらのファイルを読み取るために、次のコードを使用し各ファイルをデータセット行に書き込む
val ddf = spark.read.text("file:///input/*")
しかし、これは各行は行ではなくファイルであるデータセットを作成します。私はデータセット内の行ごとに(文字列として)各ファイルを持っていたいと思います。
どのように各ファイルを反復処理せずに別々にRDD
として読み込むことができますか?
美しい答え、私が探していたものの構造を考えます。 – Tim