私はpython sparkライブラリを使用してAmazon EMRのテキストファイルを読み込もうとしています。ファイルはホームディレクトリ(/ home/hadoop/wet0)にありますが、sparkが見つからないようです。問題のSpark/HadoopがAWS EMRのファイルを見つけることができません
ライン:
lines = spark.read.text(sys.argv[1]).rdd.map(lambda r: r[0])
エラー:
pyspark.sql.utils.AnalysisException: u'Path does not exist: hdfs://ip-172-31-19-121.us-west-2.compute.internal:8020/user/hadoop/wet0;'
ファイルが特定のディレクトリにあることがありますか?私はAWSのウェブサイト上のどこにでもこの情報を見つけることができません。
'hadoop fs -ls/user/hadoop /'の出力を印刷してもよろしいですか? – eliasah