私はいくつかのデータ分析&機械学習を実行するために、サイトから約3年間の歴史的データを取得するためのツールに取り組んでいます。私は要求していたレポートの取得したGoogleアナリティクスレポートに重複行が表示される原因は何ですか?
寸法は以下のとおりです。
[ ga:cityId, ga:dateHour, ga:userType, ga:deviceCategory ]
そして、私の出発点は、(データが最終的に別の場所に住んでいるかもしれないが、我々が始まる十分な理由を持っているPostgresのDBにインポートすることですリレーショナルデータベース)。
私は、[ ga:cityId, ga:dateHour, ga:userType, ga:deviceCategory ]
タプルのpostgresテーブルに対して一意のインデックスを定義しました。現在、インポートジョブは、そのタプルの複製のために、30000〜50000行ごとに定期的に失敗します。
重複した行を返す原因は何ですか?
一度に行が非常に時間がかかるので、インサートを1000行/文でバッチ処理しています。そのため、最善の回避策は、最初のインポート中に一意のインデックスを無効にすることですそれを再度有効にして、毎日新しいデータを毎日インポートします。他の戦略?
私の初期テストではおそらく不幸になりました。私の日付範囲の終了日は "ライブ"で、おそらくページフェッチの間にページ境界が変わっていました。終了日が過去24時間を超える期間で実行している場合、重複は見られません。 –