2017-06-08 20 views
1

bq CLIユーティリティを使用して、Googleストレージに格納された(同じスキーマタイプの)多数のAVROファイルを正常に読み込みました。AVROファイルをBigQueryにロード中にエラーが発生しました

しかし、BigQueryのにロードしている間、私は非常に不可解なエラーを取得していますAVROファイルの一部のため、誤差が言う:

Apacheのアブロライブラリがfollwingエラーでデータの読み込みに失敗しました:EOF に達した(エラーコード:AVROファイルが破損していないことを検証しアブロ・ツールで無効)

、レポート出力:

のjava -jarアブロ・ツール-1.8.1.jar修理2017-05-15-07を報告-o -15-01_48a99.avro ファイルのリカバリ:2017-05-15-07-15-01_48a99.avro ファイルの概要:ブロックの 数:レコードの0 数:壊れたレコードの58598数:0

が、私はそれが原因だった場合には失敗したファイルのいずれかで新しいテーブルを作成しようとした破損ブロックの51数スキーマの不一致が発生しましたが、エラーがまったく同じではありませんでした。

ここでエラーが発生する原因を突き止める必要がありますか?

+0

あなたは、それはdoesnのと仮定して、問題を再現するサンプルファイルを(https://issuetracker.google.com/issues/new?component=187149&template=0)[課題トラッカーにバグを提出する]ことができます機密データが含まれていませんか? BigQueryチームは、これがバグのように聞こえるので、何が起こっているのかをデバッグするのに役立ちます。 –

答えて

0

詳細を知らないと問題を特定することはできませんが、このエラーメッセージが表示され、チケットhereを提出しました。

1つのロードジョブ内のファイルの数に、エラーの原因となっていた列がありませんでした。

ticketからの説明。

BigQuery uses the alphabetically last file from the directory as the avro schema to read the other Avro files. I suspect the issue is with schema incompatibility between the last file and the "problematic" file. Do you know if all the files have the exact same schema or differ? One thing you could try to help verify this is to copy the alphabetically last file of the directory and the "problematic" file to a different folder and try to load those two files in one BigQuery load job and see if the error reproduces.

関連する問題