0
をロード -Apacheの豚は、私が同じスキーマに付着した私のコンテンツを含む、以下のフォルダ構造を持つ複数のファイルに
/project/20160101/part-v121
/project/20160105/part-v121
/project/20160102/part-v121
/project/20170104/part-v121
私は&プロセスに個々のファイルをロードするためにJSONLoaderを使用して豚のスクリプトを実装しています。しかし、私はそれを日付のフォルダの下にあるすべてのファイルを読むために一般的にする必要があります。
は今の私は、次を使用してファイルパスを抽出するために管理している -
hdfs -ls hdfs://local:8080/project/20* > /tmp/ei.txt
cat /tmp/ei.txt | awk '{print $NF}' | grep part > /tmp/res.txt
今、私は私のプログラムは、すべてのファイル上で実行されるように、私は豚のスクリプトに、このリストを渡すん方法を知っておく必要があります。
は、先にそれを言及している必要があります。私はcom.twitter.elephantbird.pig.load.JsonLoaderを使用しています。これは象の鳥にとってもうまくいくのだろうか。 – user1619355
わからない、試してみてください –