2017-11-17 23 views
0

Google Cloud Storageデータをbigtableにロードする簡単な方法はありますか?Google Cloud Storageデータをbigtableに読み込み

私は多くのjsonファイルをpysparkによって生成しました。私はbigtableにデータをロードしたいと思います。

しかし、私はそれを行う簡単な方法を見つけることができません!

私はgoogle-cloud-pythonからpythonコードを試してみましたが、罰金が科せられましたが、私にとっては奇妙なbigtableに1行ずつデータを読み込んでいます。

ご協力いただければ幸いです。

答えて

1

Cloud Bigtableでデータを読み取る簡単なツールはありません。いくつかのオプションがあります:

  1. Dataflowを使用してファイルをインポートします。これには、Java開発とデータフロープログラミングモデルの学習が必要です。
  2. これらのjsonファイルを読むにはPython(おそらくPysparkを使用)を使用し、Bigtableに一括して書き込むmutate_rowsというメソッドを使用してCloud Bigtableに書き込みます。

参考までに、私はCloud Bigtableチームで働いています。私はJava開発者だから、#1を選ぶ。私たちのチームは、Pythonの経験を改善するために取り組んできました。拡張されたチームは最近、mutate_rowsが大規模なジョブで回復力があることを確認するために信頼性の向上を追加しました。我々はまだPySparkやApache Beam's python SDKと統合する良い例はないが、我々のレーダーに載っている。

+0

こんにちは、@ソロモン、あなたのチームの経験を共有していただきありがとうございます。私はそれを行うためにデータフローを使用しようとしました。私はgcp上でDataflowを使う方法を本当に知りません。ところで、gcpのドキュメントはいつも私を混乱させます!! ha..ha .. – chilun

+0

Cloudflowでデータフローを使用するいくつかの例を次に示します。https://github.com/GoogleCloudPlatform/cloud-bigtable-examples/tree/master/java/dataflow-connector-examples –

+0

後で試してみます。共有してくれてありがとう。 – chilun