2016-03-24 7 views
-1

私は、hadoopを組み込んだスパークスタンドアロンを使用しています。 .csvファイルを読み込めるようにインポートするライブラリを知りたいですか?spark-shellを使って.csvファイルを読む方法

githubから1つのライブラリが見つかりました:https://github.com/tototoshi/scala-csv readmeに示すようにimport com.github.tototoshi.csv._と入力したときに機能しません。私はそれを最初にsbtを使用してbuidingのようなものをインポートする前に何か他のことをしなければならないでしょうか?私はsbtを使ってビルドしようとしましたが、どちらも動作しませんでした(私が行ったことは、readmeの最後のステップに従い、ローカルコンピュータにコードをクローンし、sbtをインストールして./sbtを実行しますが、動作しません) 。

答えて

4

spark-csvパッケージを有効にするだけです。

spark-shell --packages com.databricks:spark-csv_2.10:1.4.0 

これにより、csvフォーマットが有効になります。

val df = sqlContext.read.format("csv").load("foo.csv") 

と場合に、あなたはそれがそうでない人が働いていないかを説明するためにあなたの質問を言い換える必要があるすべてのオプションhttps://github.com/databricks/spark-csv

+0

これは非常に役立ちます! – teddy

0

のヘッダ

val df = sqlContext.read.format("csv").option("header", "true").load("foo.csv") 

参照くださいGitHubのレポがダウンし続けます持っています投票。

spark-shellを使用する場合は、@ the.malkolmのような "--packages"を使用して、シェルで動的にインポートするパッケージのリストを提供できます。私はまだあなたがspark-shellでそれを修正する方法を尋ねていないので、解決策は完全ではないと思うが、sbtでどのようにコンパイルするのか。私はhttps://github.com/tototoshi/scala-csvの前にmavenを使っています。ここではbuild.sbtと./sbtに次の行を追加する必要があることを除いて、sbtではそれほど大きな違いはないと想定しています。

libraryDependencies += "com.github.tototoshi" %% "scala-csv" % "1.3.0" 

それはそれはおそらく問題ではありませんので、私はhttp://www.scala-sbt.org/documentation.htmlで良く見てみることをお勧めだろう動作しない場合は、この行

libraryDependencies += "com.databricks" %% "spark-csv_2.10" % "1.4.0" 

とSBTとdatabricksが提供するライブラリーを試すことができますどのライブラリを使用するのか、sbtプロジェクトを構築する方法について説明します。

+0

私はcom.databricksライブラリはかなり良いと思う、私は今問題なく使用することができます。ありがとう! – teddy

関連する問題