Windowsでspark-csvをダウンロードする

私はSparkの世界初心者で、SparkRを使用してMachine Learningアルゴリズムを実行したいと考えています。Windowsでspark-csvをダウンロードする

私はラップトップ（Windows 7 64ビット版）にスタンドアロンモードでSparkをインストールしました。この有効ガイドに続いてSpark（1.6.1）、Pysparkを実行し、WindowsでSparkRを起動することができます：link。

それが理由のように思える

Error in invokeJava(isStatic = TRUE, className, methodName, ...) : 
    java.lang.ClassNotFoundException: Failed to find data source: com.databricks.spark.csv. Please find packages at http://spark-packages.org 
    at org.apache.spark.sql.execution.datasources.ResolvedDataSource$.lookupDataSource(ResolvedDataSource.scala:77) 
    at org.apache.spark.sql.execution.datasources.ResolvedDataSource$.apply(ResolvedDataSource.scala:102) 
    at org.apache.spark.sql.DataFrameReader.load(DataFrameReader.scala:119) 
    at org.apache.spark.sql.api.r.SQLUtils$.loadDF(SQLUtils.scala:160) 
    at org.apache.spark.sql.api.r.SQLUtils.loadDF(SQLUtils.scala) 
    at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method) 
    at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62) 
    at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43) 
    at java.lang.reflect.Method.invoke(Method.java:498) 
    at org.apache.spark.api.r.RBackendHandler.handleMethodCall(RBackendHandler.scala:141) 
    at org.apache.spark.api.r.RBackendHandler.ch

私が持っていないということです。それにも関わらず

#Set proxy 
Sys.setenv(http_proxy="http://user:[email protected]:8080/") 
#Set SPARK_HOME 
Sys.setenv(SPARK_HOME="C:/Users/amartinezsistac/spark-1.6.1-bin-hadoop2.4") 
#Load SparkR and its library 
.libPaths(c(file.path(Sys.getenv("SPARK_HOME"),"R", "lib"), .libPaths())) 
library(SparkR) 
#Set Spark Context and SQL Context 
sc = sparkR.init(master="local") 
sqlContext <- sparkRSQL.init(sc) 
#Read Data 
link <- "s3n://mortar-example-data/airline-data" 
flights <- read.df(sqlContext, link, source = "com.databricks.spark.csv", header= "true")

が、私は最後の行の後に次のエラーメッセージが表示されます。私はSparkRを始めたら私は有名なフライトの例を開始しましたこのページ（Github link）からダウンロードできるread-csvパッケージがインストールされています。スタックと同様に、spark-packages.orgのウェブサイト（link）には、Linuxインストール用の$SPARK_HOME/bin/spark-shell --packages com.databricks:spark-csv_2.11:1.4.0というアドバイスがあります。

私の質問は：このパッケージをダウンロードするには、Windows 7のcmdからこのコード行をどのように実行できますか？皆様に事前に

#In master you don't need spark-csv. 
#CSV data source is built into SparkSQL. Just use it as follows: 
flights <- read.df(sqlContext, "out/data.txt", source = "com.databricks.spark.csv", delimiter="\t", header="true", inferSchema="true")

ありがとう：

は私も成功せず、私のエラーメッセージ（ Github）の代替ソリューションを試してみました。

出典

2016-05-03 NuValue

Windowsでも同じです。 binディレクトリからspark-shellを起動すると、次のように起動します。

spark-shell --packages com.databricks:spark-csv_2.11:1.4.0

出典

2016-05-03 09:45:52

こんにちはDaniel。お返事をありがとうございます。実際、パッケージのダウンロードが始まりました。しかし、cmdは私に大きなメッセージを示しました： "未解決の依存関係：com.databricks：spark-csv_2.11：1.4.0が見つかりません"。なぜそれができるのか知っていますか？どうもありがとう。 – NuValue

2.10バージョンに試してみてください： '--packages com.databricks：spark-csv_2.10：1.4.0' –

おそらくプロキシを設定する必要がありますか？ http://stackoverflow.com/questions/36676395/how-to-resolve-external-packages-with-spark-shell-behind-a-corporate-proxyを参照してください。 – Boern

Windowsでspark-csvをダウンロードする

答えて

関連する問題