私たちはデータフローパイプラインのデータシンクとしてGCSを使用しています。何らかの理由で出力ディレクトリに "gsutil ls"ディレクトリ。 具体的には、ファイル数は正確に4,000でなければなりません(4,000ファイルに出力を分割するようにパイプラインが指定されたため)。 しかし、私が見るリストはです。これらの4,000ファイル($ prefix - ????? - 04000)とのの一部はの一時ファイル($ prefix-temp- *)です。 データフロージョブ(2016-12-18_19_30_32-7274262445792076535)が完了してから10時間以上が経過していますが、別のファイルリストが表示されています(増加するだけでなく、一部のファイルが消えて再び表示されることもあります)。 これは、このディレクトリから読み込んだ他のデータフローパイプラインに影響します。"gsutil ls"は毎回異なるリストを表示します
このデータフローの問題またはGCSの問題ですか?これをどのように解決できますか? これまではGCSのこの動作を見てきましたが、データフローパイプラインが完了した後は通常は最初の数分間でしたが、今回はしばらく進行中です。
それは一貫して存在していない、と私は混乱していた理由です。これらの4000個のファイルのうちのいくつかは*消えてから再び現れます(それは私が "それは単なる増加するのではなく、時には減少することを意味しています)。 –
バケットを列挙すれば最終的な一貫性があるかもしれません。特定のファイルをリストすると、毎回それを見つけることが期待されます。 – Frances