NIFI jsontoavro-> avrotoorc-> puthdfsを使用しています。しかし、次の問題に直面している。jsonからorcへのデータ保存に関するApacheの問題点
1)単一のORCファイルがHDFSに保存されています。私は圧縮を使用していません。 2)これらのファイルにアクセスしようとすると、バッファメモリのようなエラーが出ます。
ありがとうございました。
NIFI jsontoavro-> avrotoorc-> puthdfsを使用しています。しかし、次の問題に直面している。jsonからorcへのデータ保存に関するApacheの問題点
1)単一のORCファイルがHDFSに保存されています。私は圧縮を使用していません。 2)これらのファイルにアクセスしようとすると、バッファメモリのようなエラーが出ます。
ありがとうございました。
多くのAvroレコードをConvertAvroToORCの前にマージする必要があります。
ConvertAvroToORCの直前のモードをAvroに設定してMergeContentを使用すると、これを行うことができます。
また、MergeContentを使用してJSONを結合してから、併合したJSONをConvertJsonToAvroに送信することもできます。
すでにHDFSにあるORCファイルにPutHDFSを追加すると機能しません。 HDFSプロセッサは、データのフォーマットについて何も知らず、ファイルに追加の生のバイトを書き込んでいるだけで、無効なORCファイルを作成する可能性があります。
はい、ブライアンそれは正確な問題です。 –
ファイルを追加中にこの問題に直面しています。単一レコードのORCを作成すると問題はありません。 –