2017-01-03 6 views
0

に重複することなく、複数のファイルを結合し、新しいファイルへの書き込み、私は以下の内容Javaの

file1.txt 
stack 1 
overflow 2 
frequency 4 

file2.txt 
stack 2 
overflow 1 
terms 5 

私はこのような複数のファイルを結合して出力以下

final.txt 
stack 3 
overflow 3 
terms 5 
frequency 4 
で新しいファイルを作成したいとの2つのファイルを持っています

注:ファイルのサイズが非常に大きい

これを行うための最善の方法は何である誰が助けることはできますか?

+0

'Map 'を使ってカウントを保持してみてください。 –

+0

私はそれをすることができますが、ファイルが非常に大きいので、多くの用語があり、そこに数えられるので、いくつかのメモリの問題が発生する可能性があります.2つ以上のファイルが特定のファイルになります。より良いオプション? – premkumar

+0

これまでに取った手順を教えてください。あなたは自分で努力しましたか? –

答えて

0

Sparkを試すことができます。 Sparkは、任意のJavaまたはPythonオブジェクトを含む分散データセットのコンセプトに基づいて構築されています。外部データからデータセットを作成し、パラレル操作を適用します。

+0

私は今必要なスパークを認識していますこれらのスパークジョブを実行するためのHDFSセットアップ?もしそうなら、私は現在それを持つことはできません – premkumar

+0

いいえ、私のgithubで私の例を見ることができます。私はファイルを読み、行動を起こす。 https://github.com/nvtam2105/spark-demo –

関連する問題