2017-01-13 4 views
0

ファイルのリストを取得したい。 pysparkからクライアントを取得

from hdfs import Config 
client = Config().get_client('dev') 
client.list('/*') 

しかし、実際には、実行に失敗した:私は、これらのコマンドは、仕事をするだろうとポストsayon​​gを見た

--------------------------------------------------------------------------- 
HdfsError         Traceback (most recent call last) 
<ipython-input-308-ab40dc16879a> in <module>() 
----> 1 client = Config().get_client('dev') 

/opt/cloudera/extras/anaconda3/lib/python3.5/site-packages/hdfs/config.py in get_client(self, alias) 
    117   break 
    118  else: 
--> 119   raise HdfsError('Alias %r not found in %r.', alias, self.path) 
    120  return self._clients[alias] 
    121 

HdfsError: Alias 'dev' not found in '/home/sbenet/.hdfscli.cfg'. 

をあなたが見ることができるように、存在しないファイル/home/sbenet/.hdfscli.cfgにアクセスしようとしています。

この方法を使用してファイルの一覧を取得する場合は、この.hdfscli.cfgファイルの問題を修正するか、scという別の方法を使用する必要があります。

+0

これをチェックしてくださいあなたは 'sc._jsc.hadoopConfiguration()' –

+1

@Tzachゾハルを経て 'hadoopConfiguration'プロパティを公開するJavaコンテキストにアクセスすることができ、私はそれを試してみました。私は 'JavaObject id = o1360'を受け取る。これで私は何をしますか? – Steven

答えて

0

最初に設定ファイルを作成する必要があります。 1

[global] 
default.alias = dev 

[dev.alias] 
url = http://dev.namenode:port 
user = ann 

[prod.alias] 
url = http://prod.namenode:port 
root = /jobs/ 
関連する問題