人の年齢を表すいくらかの汚いデータがあります。間隔は-7000から2015までです。私は値を変更しました。いくつかのデータを、特定の分布に従うランダムに生成された数値に置き換えてください。
df_members['bd'] = df_members.bd.apply(lambda x: -99999 if float(x)<=1 else x)
df_members['bd'] = df_members.bd.apply(lambda x: -99999 if float(x)>=100 else x)
次のグラフはデータを示しています。
私は、第2の画像のように、私は分布に影響を与えることなく、-99999の値を交換するにはどうすればよい-99999
ある値を除外することで、グラフをプロット?年齢は15〜50歳で平均は約29、生年月日の中央値は28.0です。私は15-50の間で乱数を生成する予定ですが、私は元の分布を破壊することを心配しています。
あなたがnumpyので利用可能なディストリビューションの場所と規模のパラメータを見たことがありますか?例えば、 'np.normalため[ドキュメント](https://docs.scipy.org/doc/numpy/reference/generated/numpy.random.normal.html#numpy.random.normal)を見てみましょう。ランダム。 – ChuHo
実際、配布を変更したくないのですか?外れ値-99999を含む分布は誤っており、実際の実際の値を実際に表しているわけではありません。ちょうどそれを投げ捨て、再計算することは正しいオプションのように思えます。オリジナルを維持することを堅持しているのであれば、間違った分布は、グラフのX軸を元のデータを変更するのではなく、-99999の前に停止するように変更してください。 – Dylan
@Dylan私はいくつかの分類作業をしています。間違っているか、それらの値をいくつかのランダムな値に置き換えることができます。これはうまくいけば、(それらのエラーデータなしで形作られた)分布を維持します。 –