VM内のHDFSにデータを取得するには、hdfs
コマンドを使用して、VM内のローカルファイルシステムからVM内のHDFSにファイルをプッシュする必要があります。コマンドのようなものになります。HDFSのコマンドの詳細については
hadoop fs -put filename.log /my/hdfs/path
を、Hadoop File System Shell Commandsを参照してください。
Apache Sparkを使用しているので、HDFSの代わりにローカルファイルシステムを参照することもできます。これを行うには、hdfs://...
の代わりにfile:///...
を使用します。例えば、スパークを経由してHDFS内のファイルにアクセスするには、通常のようにコマンドを実行することができます。
val mobiletxt = sc.textFile("/data/filename.txt")
いますが、同様にVMのローカルファイルシステムにアクセスすることができます:Apacheのツェッペリンについては
val mobiletxt = sc.textFile("file:///home/user/data/filename.txt")
これはApache Spark(および他のシステム)で動作するノートブック・インターフェースです。現在、ツェッペリン自体には輸入の仕組みがない。代わりに、ノートブック内で上記のようなことをして、VMのHDFSまたはローカルファイルシステムにアクセスします。
ホストからVMにファイルを取得するには、SCPまたは(S)FTP –