GCSバケットから時間とホストマシンで分割されたログファイルを読み取るデータフロージョブがあります。次のようにバケットの構造は次のとおりです。データフロージョブの読み取り時間の合計が高い値です
/YYYY/MM/DD/HH/mm/HOST/*.gz
各ジョブには約10の10,000ログファイルの順に消費してしまうことができます-100 KBのサイズ。
通常、私たちの仕事は完了するまでに約5分かかります。我々は時々、私たちの仕事がその時間の2-3倍に急増するのを見て、増加の大部分がデータファイルを読むことに関連する作業項目に見られることがわかります。どのようにしてこのジョブの実行時間のばらつきを減らすことができますか? GCSからの読み取りにスループットの問題はありますか?