Spark on Bluemixに多数の大きなCSVファイルをロードする必要があります。スパーク環境(IBM Bluemix)のspark-csvまたはpyspark-csv
私はsc.testFileでそれを行い、それをマップすることができますが、それは反復的で面倒なコードを必要とします。
databricks spark-csvパッケージ、またはpyspark-csvを環境に追加/ロードする方法はありますか(試しましたが、気に入らなかったのですか)。
私はパンダを使ってその例を見ましたが、ファイルの中には非常に大きなもの(10's GB)がある可能性があるので、それは良い考えでした。これはPythonですが、私はScalaに切り替えることができます。 Pythonのノートブックで
最後の夜(私が応答を見た前でさえ)pysparkを再試行して、それを動作させる必要があるので、私がtypo'dしなければならないことを確かめてください。参照しようとしたspark-csvがcom.databricksにアクセスできないと不平を言いました。2.10のjarファイルを追加したときに、JVMのスタックダンプが終了しました(私はカーソルを見ただけで、同じファイルを処理するときにローカルのスタックダンプを取得しませんでした - そのため、pysparkに切り替えました)。後でspark-csvをテストします – BrianH