ローカルファイルシステムに24GBのフォルダがあります。私の仕事は、そのフォルダをHDFSに移動することです。私はそれを2通り行った。 1)hdfs dfs -copyFromLocal/home/data// home/Apache FlumeがcopyFromLocalコマンドよりも時間がかかります
この処理には約15分かかりました。
2)Flumeの使用。
は、ここでこのステップは、HDFSにデータをプッシュすることはほとんど時間を要した
spool_dir.sources = src-1
spool_dir.channels = channel-1
spool_dir.sinks = sink_to_hdfs
# source
spool_dir.sources.src-1.type = spooldir
spool_dir.sources.src-1.channels = channel-1
spool_dir.sources.src-1.spoolDir = /home/data/
spool_dir.sources.src-1.fileHeader = false
# HDFS sinks
spool_dir.sinks.sink_to_hdfs.type = hdfs
spool_dir.sinks.sink_to_hdfs.hdfs.fileType = DataStream
spool_dir.sinks.sink_to_hdfs.hdfs.path = hdfs://192.168.1.71/home/user/flumepush
spool_dir.sinks.sink_to_hdfs.hdfs.filePrefix = customevent
spool_dir.sinks.sink_to_hdfs.hdfs.fileSuffix = .log
spool_dir.sinks.sink_to_hdfs.hdfs.batchSize = 1000
spool_dir.channels.channel-1.type = file
spool_dir.channels.channel-1.checkpointDir = /home/user/spool_dir_checkpoint
spool_dir.channels.channel-1.dataDirs = /home/user/spool_dir_data
spool_dir.sources.src-1.channels = channel-1
spool_dir.sinks.sink_to_hdfs.channel = channel-1
私の薬剤です。
私の知る限り、Flumeは配布されているので、FlumeがcopyFromLocalコマンドよりも速くデータをロードする必要はありません。
はあなたがHDFSに入れたいデータについてのさらなる情報をお持ちですか? は、それがデータをログますか?それは時間の経過とともに変化していますか?どこで、これは、私はあなたの冒頭陳述に同意できないだろう? – bessbd