私のpythonプロジェクトでは、リレーショナルデータフレームを持つbigqueryテーブルを作成する必要があります。私は最初から新しいテーブルを作成し、そこにアップロードした最初のデータが実際にテーブルに入れられていることを確認することに多くの問題があります。Bigquery(とpandas) - データの一貫性を保証する
私はhttps://cloud.google.com/bigquery/streaming-data-into-bigquery#dataconsistencyのページを読んでおり、挿入クエリにinsertIdを適用すると問題は解決するが、pandasのデータフレームを使用しているので、pandas-gbqパッケージのto_gbq関数がこのタスクに最適だと思われる。しかし、to_gbq関数を使用して新しいテーブルが作成/置換されると、最初のデータチャンクが(明らかにランダムに)テーブルに書き込まれないことがあります。
誰かがbigqueryの新しい作成テーブルにDataFrameを完全に挿入する方法を知っていますか?ありがとう
ご回答ありがとうございます。私はパンダを使用してすぐにこれが修正されることを願っています 'to_gbq機能は非常に便利です! – user1403546
現時点では、データの一貫性をどのように確保しますか? (非パンダの機能もあります) – user1403546
その間、「ロードジョブ」を使ってテーブルを作成することをお勧めします。たとえば、 'google-cloud-bigquery'パッケージの' client.load_table_from_file'メソッドを使用します。 https://googlecloudplatform.github.io/google-cloud-python/latest/bigquery/reference.html#google.cloud.bigquery.client.Client.load_table_from_file –