こんにちは、私はpythonに新しいので、友人はstackoverflowのヘルプを求めることを勧め、私はそれをショットを与えることにしました。私は現在、Pythonバージョン3.xを使用しています。Python 3.xより小さい平均値で重複のグループを維持する方法は?
カラムヘッダーのないcsvファイルに100kを超えるデータセットがあります。このデータをpandas DataFrame
にロードしました。ため、私は、私は ここにデータを表示するカントが、これはあなたがname
列から見ることができるように
("id", "name", "number", "time", "text_id", "text", "text")
1 | apple | 12 | 123 | 2 | abc | abc
1 | apple | 12 | 222 | 2 | abc | abc
2 | orange | 32 | 123 | 2 | abc | abc
2 | orange | 11 | 123 | 2 | abc | abc
3 | apple | 12 | 333 | 2 | abc | abc
3 | apple | 12 | 443 | 2 | abc | abc
3 | apple | 12 | 553 | 2 | abc | abc
以下のように定義することができ、データや列の一例である文書が機密であるという事実に 「リンゴ」の2つの重複したクラスタを有するが、異なるIDを有する。
私の質問は どのようにして、平均値の高いベース( "行")全体を「時間」にドロップするのですか?
例:(IDとクラスタ:1)場合.mean(時間)<(IDとクラスタ:3):3
所望の出力.mean(時間)、次いでIDとクラスタ内のすべての行を削除:
1 |リンゴ| 12 | 123 | 2 | abc | abc
1 |リンゴ| 12 | 222 | 2 | abc | abc
2 |オレンジ| 32 | 123 | 2 | abc | abc
2 |オレンジ| 11 | 123 | 2 | abc | abc
私は多くの助けを必要とし、私はそれを得ることができます、私は時間切れです、事前に感謝!
こんにちは@SCC、ありがとうございました返信buしかし、私が探しているのは、index_to_keepが{0,1,2,3} 4個のIDを持つクラスタに属していなければならないということです。3 クラスタ平均値(時間に基づく)?(クラスタがID:3).mean(時間)=クラスタIDが3のすべての行を削除します。3 –
あなたは平均値の高いクラスタがドロップされた場合 例:私の例では '>'を '> ='に変更することで 'my_func()'の条件を調整することができます。 – SSC