0

VMWareのHDP 2.5サンドボックスで実行しているSparkプログラムで、ローカルテキストファイルを使用したいとします。ZeppelinからSparkで使用するために、ローカルドライブからVMWare HDP 2.5 Sandboxにファイルをインポートできますか?

1)VMのHDFSに直接ドラッグ&ドロップする方法はありますか?

2)Zeppelinを使用してインポートできますか?はいの場合は、絶対パス(場所)を取得してSparkで使用する方法は?

3)他の方法はありますか?はい、どうすればいいですか?

+0

ホストからVMにファイルを取得するには、SCPまたは(S)FTP –

答えて

0

VM内のHDFSにデータを取得するには、hdfsコマンドを使用して、VM内のローカルファイルシステムからVM内のHDFSにファイルをプッシュする必要があります。コマンドのようなものになります。HDFSのコマンドの詳細については

hadoop fs -put filename.log /my/hdfs/path 

を、Hadoop File System Shell Commandsを参照してください。

Apache Sparkを使用しているので、HDFSの代わりにローカルファイルシステムを参照することもできます。これを行うには、hdfs://...の代わりにfile:///...を使用します。例えば、スパークを経由してHDFS内のファイルにアクセスするには、通常のようにコマンドを実行することができます。

val mobiletxt = sc.textFile("/data/filename.txt") 

いますが、同様にVMのローカルファイルシステムにアクセスすることができます:Apacheのツェッペリンについては

val mobiletxt = sc.textFile("file:///home/user/data/filename.txt") 

これはApache Spark(および他のシステム)で動作するノートブック・インターフェースです。現在、ツェッペリン自体には輸入の仕組みがない。代わりに、ノートブック内で上記のようなことをして、VMのHDFSまたはローカルファイルシステムにアクセスします。

+0

を使用する必要があります。ありがとうございます。ただし、デスクトップからVMのローカルファイルシステムにファイルをインポートするにはどうすればよいですか? –

+0

VirtualBoxを使用している場合は、https://www.liberiangeek.net/2013/09/copy-paste-virtualbox-host-guest-machines/を参照できます。 VMWareを使用している場合は、https://www.vmware.com/support/ws5/doc/ws_running_dragndrop.htmlを参照できます。 HTH! –

関連する問題