現在、Google Cloud StorageからのSFTPの到着について、Cloud PubSubに公開されているイベントを取得中です。これらのイベントをリアルタイムで処理することは可能ですが、 Google Cloud StorageからZIPファイルを読み込もうとしています。 apacheのビームのPythonの側は、APIからこのクラスでそれはかなりシームレスになります。例:Google Cloud StorageからZipファイルを読み取る方法
import apache_beam as beam
gcs = beam.io.gcsio.GcsIO()
そして、これは私が思っていたものを、比較的容易にGoogleクラウドストレージからファイルをやってのけることができるように縫い目ですこのPythonバージョンと同等のJavaバージョンがあれば多くのドキュメンテーションは、これまでに行ってきたMCRのcom.google.cloud:google-cloud-storage:1.6.0を使用することを指摘していますが、これはPythonバージョンと比べてはるかに鈍い感じであり、これを正しく行う方法を明確にしたかったのです。
ありがとうございます。
GCSからBeam Javaを使用してZIPファイルを読み取るときに特に問題がありますか? TextIOはZIPファイルを自動的に解凍します。より多くのカスタムが必要な場合は、FileSystemsクラスのメソッドを使用してください(これはGcsIOではなくPythonでも推奨されるAPIです)。 – jkff
私たちはクラウドにデータを送り出しています.PubSubはデータを処理するパイプラインをパイプラインに伝えています。 ZIPファイルのデータはテキストではなく(技術的には2つ)、残りは画像とPDFです。 TextIO.read()メソッドは、PCollectionのみを返すように見えます。 –
bR3nD4n