2017-12-24 17 views
0

私はスタンドアロンモードでスパークを実行しています(私たちのシステムには今後配布される予定です)。まず、このファイルをFTPからローカルのe.g c:\spark\analysis\bigfile.txtにコピーする必要があります。そのファイルを解析用のスパークで読み込むことができます。スパーク解析の前にFTPから大きなテキストファイルを読む

私の質問は、どのようにメモリを使い果たすことなく効率的に大きなファイルをコピーできますか? スパークすることは可能ですか?私はカフカのようなストリーミングライブラリを使うべきですか?

私はスパーク解析を完了した後、大きなファイルをftpサーバーに書き込むのと同じ方法です。

あなたが Bluezoneまたは端末エミュレータを接続する任意の他のエッジノードを使用して、簡単なシェルコマンドを使用することができ
+0

[リモートからのApache Sparkでのcsvファイルの読み取り(ftp)](https://stackoverflow.com/q/34479895/6910411) – user6910411

答えて

0

cat bigfile.txt | ssh [email protected] 'hdfs dfs -put - /pathTo/hdfs'

これは、しかし少し遅くなりますが、それは300ギガバイトのファイルのために私のために働きました。

注:ファイルがHadoopがインストールされていないサーバーにあったため、これを実行しました。 |

BLOCKQUOTE

wgetのftp://user:[email protected]/your_file:サーバーはHadoopのが、その後インストールされている場合は、単に標準入力経由hdfs dfs -put

0

パイプそれを試すことができますHadoopのfs -put - path_in_hdfs

BLOCKQUOTE

シングルは - HDFSは、標準入力からの読み込みを置くように指示します。

関連する問題