テキストファイルをpyspark RDDに読み込もうとしていますが、sqlContext.read.load
とsqlContext.read.text
の間に大きな違いがあることに気づいています。sqlContext.read.loadとsqlContext.read.textの違いは何ですか?
s3_single_file_inpath='s3a://bucket-name/file_name'
indata = sqlContext.read.load(s3_single_file_inpath, format='com.databricks.spark.csv', header='true', inferSchema='false',sep=',')
indata = sqlContext.read.text(s3_single_file_inpath)
sqlContext.read.load
コマンドは、上記
Py4JJavaError: An error occurred while calling o227.load.
: java.lang.ClassNotFoundException: Failed to find data source: com.databricks.spark.csv. Please find packages at http://spark-packages.org
で失敗しかし、もう一つは成功しますか?
オンラインで見るリソースのすべてがsqlContext.read.load
(これにはhttps://spark.apache.org/docs/1.6.1/sql-programming-guide.html)を使用していると言われています。
これらのうちのどれをいつ使用するかは、私には明らかではありません。これらの間に明確な区別がありますか?
_ "大きな違い" _は何ですか?私はあなたの質問のうちの一方が失敗し、他方は失敗することを見ることができます。 –