2017-04-23 24 views
1

圧縮CSVファイル(.bz2)をDataFrameとして読み込もうとしています。私のコードは次の通りですSpark 2.1.0:圧縮CSVファイルを読む

// read the data 
    Dataset<Row> rData = spark.read().option("header", true).csv(input); 

これはIDEで試したときに動作します。私はここで何かが欠けていた場合、私はわからない

Exception in thread "main" java.lang.ClassNotFoundException: Failed to find data source: csv. Please find packages at http://spark.apache.org/third-party-projects.html 
    at org.apache.spark.sql.execution.datasources.DataSource$.lookupDataSource(DataSource.scala:569) 
    at org.apache.spark.sql.execution.datasources.DataSource.providingClass$lzycompute(DataSource.scala:86) 
    at org.apache.spark.sql.execution.datasources.DataSource.providingClass(DataSource.scala:86) 
    at org.apache.spark.sql.execution.datasources.DataSource.resolveRelation(DataSource.scala:325) 
    at org.apache.spark.sql.DataFrameReader.load(DataFrameReader.scala:152) 
    at org.apache.spark.sql.DataFrameReader.csv(DataFrameReader.scala:415) 
    at org.apache.spark.sql.DataFrameReader.csv(DataFrameReader.scala:352) 
    at com.cs6240.Driver.main(Driver.java:28) 
Caused by: java.lang.ClassNotFoundException: csv.DefaultSource 
    at java.net.URLClassLoader.findClass(URLClassLoader.java:381) 
    at java.lang.ClassLoader.loadClass(ClassLoader.java:424) 
    at sun.misc.Launcher$AppClassLoader.loadClass(Launcher.java:331) 
    at java.lang.ClassLoader.loadClass(ClassLoader.java:357) 
    at org.apache.spark.sql.execution.datasources.DataSource$$anonfun$25$$anonfun$apply$13.apply(DataSource.scala:554) 
    at org.apache.spark.sql.execution.datasources.DataSource$$anonfun$25$$anonfun$apply$13.apply(DataSource.scala:554) 
    at scala.util.Try$.apply(Try.scala:192) 
    at org.apache.spark.sql.execution.datasources.DataSource$$anonfun$25.apply(DataSource.scala:554) 
    at org.apache.spark.sql.execution.datasources.DataSource$$anonfun$25.apply(DataSource.scala:554) 
    at scala.util.Try.orElse(Try.scala:84) 
    at org.apache.spark.sql.execution.datasources.DataSource$.lookupDataSource(DataSource.scala:554) 
    ... 7 more 

を、私はそれがデータやプロセスを読むことができますが、私はMavenを使用して、それを構築し、コマンドライン上でそれを実行しようとすると、私は次のエラーを取得します。 csvファイルを読むための依存関係はありますか?ドキュメントによれば、Spark 2.x.xからのサポートが組み込まれています。

答えて

1

この回答の手順に従って問題を修正しました。 https://stackoverflow.com/a/39465892/2705924

は、基本的にはそこアセンブリプラグインといくつかの問題だったと私は日陰のプラグインを使用して、この

<transformer implementation="org.apache.maven.plugins.shade.resource.ServicesResourceTransformer"/> 
を使用する場合
関連する問題