私はcsvファイルの束を他のシステムから毎日のフィードの形で提供しています。csvファイルからヘッダーと空白行を削除する
ファイルをHDFS上にロードし、その上に外部テーブルを作成する前に、ヘッダといくつかのオプションとして空白行をファイルから削除する必要があります。
現在、私はHDFS
//remove blank lines
sed -i '/^\s*$/d' file_20160802.csv
//remove header
sed -i 1d file_20160802.csv
//put file on HDFS
hdfs dfs -put file_20160802.csv /raw/abc/20160802/
上のファイルを置く前に、ヘッダーと空白を削除するために働く2つの段階のプロセスは、私はすべての一時ファイルを作成せずに2つのステップを組み合わせることができます方法はありますか?
Thanks heaps @sat !! –