0

現在、Google Cloud StorageからのSFTPの到着について、Cloud PubSubに公開されているイベントを取得中です。これらのイベントをリアルタイムで処理することは可能ですが、 Google Cloud StorageからZIPファイルを読み込もうとしています。 apacheのビームのPythonの側は、APIからこのクラスでそれはかなりシームレスになります。例:Google Cloud StorageからZipファイルを読み取る方法

import apache_beam as beam 

gcs = beam.io.gcsio.GcsIO() 

そして、これは私が思っていたものを、比較的容易にGoogleクラウドストレージからファイルをやってのけることができるように縫い目ですこのPythonバージョンと同等のJavaバージョンがあれば多くのドキュメンテーションは、これまでに行ってきたMCRのcom.google.cloud:google-cloud-storage:1.6.0を使用することを指摘していますが、これはPythonバージョンと比べてはるかに鈍い感じであり、これを正しく行う方法を明確にしたかったのです。

ありがとうございます。

+0

GCSからBeam Javaを使用してZIPファイルを読み取るときに特に問題がありますか? TextIOはZIPファイルを自動的に解凍します。より多くのカスタムが必要な場合は、FileSystemsクラスのメソッドを使用してください(これはGcsIOではなくPythonでも推奨されるAPIです)。 – jkff

+0

私たちはクラウドにデータを送り出しています.PubSubはデータを処理するパイプラインをパイプラインに伝えています。 ZIPファイルのデータはテキストではなく(技術的には2つ)、残りは画像とPDFです。 TextIO.read()メソッドは、PCollection のみを返すように見えます。 – bR3nD4n

答えて

0

FileSystems APIは、使用例をサポートしています。使用方法の例については、FileIOの実装を参照してください。そこからいくつかのパターンを借りたいかもしれません。

関連する問題