各グループ(この場合はデータソース)内のデータベース内の冗長な行を削除したいと考えています。グループ内の冗長エントリを削除する
たとえば、次の表のとおりです。行1は、同じグループ内の他の行の行0と同じ情報が含まれていますが、より多くのデータが含まれているため、冗長です。
同じ理由から、行6は冗長です。グループ内の他のすべての行3,4,5には、それ以上の情報が含まれています。しかし、彼らはグループの他の行とはいくつかの追加の異なる情報を持っているので、私は行4と5の両方を保持します。
datasource city country
0 1 Shallotte US
1 1 None US
2 2 austin US
3 3 Casselberry US
4 3 None AU
5 3 Springfield None
6 3 None None
さらに多くの列、行0と1、4がある場合の例は、異なる情報です。しかし、行2と3(または行1)には冗長な情報が含まれています。
datasource city country Count
0 1 None US 11
1 1 austin None None
2 1 None None 11
3 1 austin None None
4 1 None CA None
の予想される出力
datasource city country Count
0 1 None US 11
1 1 austin None None
4 1 None CA None
私は任意の数の列のためのパンダまたはSQL(PostrgeSQL)で、このようなロジックを実現することができ、簡単な方法はありますか?
しかし、これ以上の列がある場合はこれは機能しません、私はexaを与えました私の質問が最初にはっきりしない場合は申し訳ありません – user113531
あなたの冗長データのアイデアは少し分かりません。必要な出力を追加できますか? – Dark