2017-01-12 4 views
1

私は初心者です。私は、 "Spark By Holden Karau、Andy Konwinski、Patrick Wendell、& Matei Zaharia"という本を読んでいます。 Pythonコードの例は、私は、ファイル「README.md」はどこかを知りたい入力パスが存在しないエラーapache spark

>>> lines = sc.textFile("README.md") # Create an RDD called lines 
>>> lines.count() # Count the number of items in this RDD 
127 
>>> lines.first() # First item in this RDD, i.e. first line of README.md 
u'# Apache Spark' 

を与えられている。この本では

が存在しますか?この本には何の情報も与えられていないからです。私はこのコードを実行しようとする時はいつでもまた、エラー がある「入力パスが存在しません:HDFS://quickstart.cloudera:8020 /ユーザー/ Clouderaの/ README.md」私はCoderaにこのコードを実行しています

VMWareワークステーションを起動する仮想マシン。

+0

ファイルの正しいパスを指定する必要があります。この例は、あなたがSpark Codeをダウンロードし、それ自身のためにビルドした場合、同じフォルダにREADMEがあることを示しています。ですから、あなたができることは、そこにテキストファイルを置いて、いくつかのデータを置いてから、あなたが提供しているパスを提供することです!ファイルはパスに存在する必要があります:hdfs://quickstart.cloudera:8020/user/cloudera/filename –

+0

@ShivanshSrivastavaご回答いただきありがとうございます。ファイルを配置するために、hdfs://quickstart.cloudera:8020/user/cloudera/filenameというパスにアクセスすることができますか? –

答えて

1

私はsparkのためにcloudera仮想マシンを使用していたので、ファイル "README.md"はパス "hdfs://quickstart.cloudera:8020/user/cloudera/README.md"に存在しませんでした。さて、私が使用している

lines = sc.textFile("file:///home/cloudera/Desktop/README.md") 

スパークは、ローカルファイルシステムからのパスで「/home/cloudera/Desktop/README.mdを」ファイルの存在にアクセスします。

関連する問題