私はスタンドアロンモードでスパークを実行しています(私たちのシステムには今後配布される予定です)。まず、このファイルをFTPからローカルのe.g c:\spark\analysis\bigfile.txt
にコピーする必要があります。そのファイルを解析用のスパークで読み込むことができます。スパーク解析の前にFTPから大きなテキストファイルを読む
私の質問は、どのようにメモリを使い果たすことなく効率的に大きなファイルをコピーできますか? スパークすることは可能ですか?私はカフカのようなストリーミングライブラリを使うべきですか?
私はスパーク解析を完了した後、大きなファイルをftpサーバーに書き込むのと同じ方法です。
あなたがBluezone
または端末エミュレータを接続する任意の他のエッジノードを使用して、簡単なシェルコマンドを使用することができ
[リモートからのApache Sparkでのcsvファイルの読み取り(ftp)](https://stackoverflow.com/q/34479895/6910411) – user6910411