2017-12-31 134 views
2

GCSから読み取るときにファイル名を取得するには、とにかく:DataflowでGCSから読み込むときにファイル名を取得するにはどうすればよいですか?

p.apply( "GCSからの読み取り"、TextIO.read()。( "gs:// path/*")) 。

出力を適切なテーブルに保存するには、次のParDoにファイル名が必要です。

この質問はHow to Get Filename when using file pattern match in google-cloud-dataflowに似ていますが、最後の更新は1年以上前ですので、これを可能にする新しい機能があるのか​​疑問です。

答えて

1

TextIOそれ自体ではできませんが、ビーム2.2には、ファイルを読み取るときに必要なカスタムを行うための変換が含まれています(FileIO.match()FileIO.readMatches())。 this answerを参照してください。 DoFn<ReadableFile, String>を使用して、通常のJava機能を使用してテキストファイルを解析し(その答えで示されるように)、ReadableFilegetMetadata()を使用してファイル名を取得する必要があります。

関連する問題