2016-07-05 5 views
-2

ディレクトリ(jsonファイルのあるフォルダ)からの読み取り中にこのファイルを取得し続けます。私が使用:JSONファイルを含むフォルダでディレクトリを読み取る方法:Spark Scala

// sc : An existing SparkContext. 
val sqlContext = new org.apache.spark.sql.SQLContext(sc) 
val df = sqlContext.jsonFile("s3://testData") 
df.show() 

エラー:

java.io.IOException: No input paths specified in job 
    at org.apache.hadoop.mapred.FileInputFormat.listStatus(FileInputFormat.java:173) 
    at org.apache.hadoop.mapred.FileInputFormat.getSplits(FileInputFormat.java:279) 
    at org.apache.spark.rdd.HadoopRDD.getPartitions(HadoopRDD.scala:207) 
    at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:239) 
    at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:237) 
    at scala.Option.getOrElse(Option.scala:120) at org.apache.spark.rdd.RDD.partitions(RDD.scala:237) 
    at org.apache.spark.rdd.MapPartitionsRDD.getPartitions(MapPartitionsRDD.scala:35) 
    at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:239) 
    at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:237) 
    at scala.Option.getOrElse(Option.scala:120) 
    at org.apache.spark.rdd.RDD.partitions(RDD.scala:237) 
     at org.apache.spark.rdd.MapPartitionsRDD.getPartitions(MapPartitionsRDD.scala:35) 
     at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:239) 
     at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:237) 
     at scala.Option.getOrElse(Option.scala:120) 
     at org.apache.spark.rdd.RDD.partitions(RDD.scala:237) 
     at org.apache.spark.rdd.MapPartitionsRDD.getPartitions(MapPartitionsRDD.scala:35) 
     at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:239) 
     at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:237) 
     at scala.Option.getOrElse(Option.scala:120) 

私のファイルシステムは次のようになります。

TESTDATA - 3フォルダ(00、01、02)それぞれの持つ1つのファイル/フォルダを持つディレクトリ

testData/00/temp1.json.gz 
testData/01/temp2.json.gz 
testData/02/temp3.json.gz 

私はスパーク1.5を使用しています。私が読んでいる方法に何か問題はありますか?

+0

をすることができますあなたは私のQuoraの上の匿名の要求を送信すると、私はこの質問に答えるしたいことはありません知っています。 https://www.quora.com/unanswered/How-do-I-read-Directory-with-folders-containing-JSON-files-in-Spark?srid=agpP&share=8d582ea1 – eliasah

答えて

0

それは効率的ではありませんが、あなたがsqlContext.jsonFile("s3://testData/*/*")

+0

なぜ効率的ではないのですか? –

+0

@Ilya_Gazman http://tech.kinja.com/how-not-to-pull-from-s3-using-apache-spark-1704509219 –

関連する問題