ローカルマシンにhdfsインストールがありません。リモートのhdfsクラスタからファイルを取得したい。これを達成する最良の方法は何ですか? get
hdfsからクラスタマシンfsのいずれかにファイルを取得してからsshを使用してファイルを取得する必要がありますか?私はbashスクリプトを使ってプログラムでこれをやりたいと思っています。ここでリモートHDFSからファイルを取得
答えて
は手順は次のとおりです。
- は、ホストとターゲットクラスタ間の接続
- クライアントとしてホストを設定があることを確認し、あなたは互換性のあるHadoopのバイナリをインストールする必要があります。また、ホストは同じオペレーティングシステムを使用して実行している必要があります。
- は直接
はまた、選択肢がありますあなたはあなたがファイルを取得するhadoop fs -get
コマンドを実行することができます
- Webhdfs/httpFSが設定されている場合、実際にはcurlまたはブラウザを使用してファイルをダウンロードできます。 Webhdfsが構成されている場合、bashスクリプトを記述できます。
ホストでHadoopバイナリがクライアントとしてインストールされていない場合は、次の手順を使用できます。あなたはひとつのスクリプトで上記の2つのコマンドを持つことができ、ファイル
- runコマンド
- クラスタ上のノードのいずれかにあなたのホストからパスワードレスログインを有効に
ssh <user>@<host> "hadoop fs -get <hdfs_path> <os_path>"
フォローアップの質問。 [httpFS](https://hadoop.apache.org/docs/r2.6.0/hadoop-hdfs-httpfs/index.html)は、パフォーマンス面で「クライアントhadoop fs -get」ソリューションとどのように比較されますか? –
httpFSとwebhdfsは同じです。それを使用してダウンロードすることができます。そうするためにhadoopバイナリは必要ありません。 –
パフォーマンスに関してはどうですか? httpFSを使用する代わりにバイナリを使用する方が速いのですか?おそらく私は別のスレッドを開始する必要があります –
- 1. リモートHDFSからファイルを読み取る
- 2. リモートのMercurialリポジトリから1つのファイルを取得
- 3. リモートMP3ファイルから情報を取得する
- 4. Anabilities - Windowsリモート共有からファイルを取得する
- 5. ローカルブランチからリモート名を取得する
- 6. Groovy:filePatternに基づいてHDFSから特定のファイルを取得する方法
- 7. HDFS暗号化|リモート例外
- 8. リモートXML取得
- 9. HDFSでPathから絶対パスを取得する方法
- 10. 直接ファイルをHDFSから直接読み取る
- 11. PySparkのHDFSから* .XLSXファイルを読み取る
- 12. papa解析を使用してリモートcsvファイルからヘッダを取得
- 13. ファイルをHDFSからローカルマシンにコピーする
- 14. HDFSからシンプルなAvroファイルを読む
- 15. hdfsからファイルを読む方法
- 16. ファイルをHDFSから転送する
- 17. HDFSからjavax.mailメールにファイルを添付
- 18. hdfsからハイブへのCsvファイルの取り込み
- 19. HDFSで最後に更新されたファイルを取得
- 20. 火花の中でhdfsファイルのパスを取得
- 21. ファイルからクラスを取得
- 22. HDFSの分散キャッシュに保存されているファイルのパスからファイル名を取得する方法
- 23. eclipseからHDFSファイルにアクセスする
- 24. ローカルのノートパソコンからリモートHDFSにファイルを置くにはどうすればいいですか?
- 25. リモートでhdfsにアクセスできない
- 26. iphoneのリモートSQLテーブルからデータを取得する
- 27. リモートからJavaスレッドダンプを取得する方法
- 28. シェルスクリプトからリモートでRed Hatのサブスクリプション情報を取得する
- 29. .NET WebサービスでリモートSQLサーバからデータを取得
- 30. リモートSQLサーバからデータを取得する - iPhone sdk
DistCpを試す:https://hadoop.apache.org/docs/r1.2.1/distcp.html –