問題はかなり奇妙です。私が圧縮されていないファイルを扱う場合、問題はありません。しかし、圧縮されたbz2ファイルを処理すると、インデックス外のエラーが発生します。bzip2 csvデータでデータフレーム結合を実行するとインデックスが範囲外になるエラー
私が読んだところでは、明らかにspark-csvパーサーで行末の文字は検出されず、すべてが巨大な行として読み取られます。圧縮されていないCSVでは動作しますが、.csv.bz2ファイルでは動作しません。
また、私が言ったように、データフレームユニオンを行うときにのみ発生します。私はスパークコンテキスト、同じエラーでrddのユニオンをしようとしました。
あなたはこのバグを打つかもしれない:https://issues.apache.org/jira/browse/HADOOP-10614を - あなたはどのようなHadoopのバージョンを使用していますか? –
私は火花2.0.0です。このエラーです、私は同じスタックトレースを取得しています。それは固定だが、spark-csvはそのライブラリの古いバージョンを使用しているか、実際には修正されていないという。 どのように手動で修正することができますか? – flipper2gv
SparkはさまざまなHadoopのバージョンで実行できます - どれを使用していますか?このバグは2.5.0で修正されているようですが、以前のバージョンを使用しているのであればおそらくそれです。 –