2017-08-27 4 views
2

NIFI jsontoavro-> avrotoorc-> puthdfsを使用しています。しかし、次の問題に直面している。jsonからorcへのデータ保存に関するApacheの問題点

1)単一のORCファイルがHDFSに保存されています。私は圧縮を使用していません。 2)これらのファイルにアクセスしようとすると、バッファメモリのようなエラーが出ます。

ありがとうございました。

+0

ファイルを追加中にこの問題に直面しています。単一レコードのORCを作成すると問題はありません。 –

答えて

4

多くのAvroレコードをConvertAvroToORCの前にマージする必要があります。

ConvertAvroToORCの直前のモードをAvroに設定してMergeContentを使用すると、これを行うことができます。

また、MergeContentを使用してJSONを結合してから、併合したJSONをConvertJsonToAvroに送信することもできます。

すでにHDFSにあるORCファイルにPutHDFSを追加すると機能しません。 HDFSプロセッサは、データのフォーマットについて何も知らず、ファイルに追加の生のバイトを書き込んでいるだけで、無効なORCファイルを作成する可能性があります。

+0

はい、ブライアンそれは正確な問題です。 –

関連する問題