いくつかのカテゴリ(centrality
)でグループ化され、他のいくつかの色(model
)で色分けされた一連のスコア分布(score
)を比較したいと思います。私はseabornで次のことを試してみた:私はこのプロットを持っているいくつかの問題があります調整seaborn.boxplot
plt.figure(figsize=(14,6))
seaborn.boxplot(x="centrality", y="score", hue="model", data=data, palette=seaborn.color_palette("husl", len(models) +1))
seaborn.despine(offset=10, trim=True)
plt.savefig("/home/i11/staudt/Eval/properties-replication-test.pdf", bbox_inches="tight")
:
- があり、外れ値の大規模な量があると私は、彼らがここに描かれている方法を好きではありません。それらを取り除くことはできますか?外観を変更して、よりぎこちないようにすることはできますか?彼らの色がボックスの色と一致するように少なくとも私はそれらを色付けることができますか?他のすべての分布が
original
の分布と比較しなければならないので、 model
値original
は特別です。これはプロットに視覚的に反映されるべきです。original
を各グループの最初のボックスにすることはできますか?何とかそれを相殺することができますか?各original
分布の中央を通って、箱の基を介して水平線を描画することは可能でしょうか?score
の一部の値が非常に小さい- 、どのようにそれらを表示するには、y軸の適切なスケーリングを行うには?
EDIT:ここ
ログスケールy軸と一例である - にもまだ理想。なぜ、いくつかのボックスはローエンドで切断されたように見えますか?
青い外れ値はマットフロッティブのバグであり、海軍を更新することで回避できます。しかし、私は確かに異常値を削除するだけではありません! – mwaskom
y変数に[log-scaling](http://stanford.edu/~mwaskom/software/seaborn/examples/horizontal_boxplot.html)を試しましたか? – mwaskom
@mwaskomはい、それはプロットの一番上に大きな値のバーを "圧縮"します。妥協点、つまり軸の一部だけのログスケーリングがありますか? – clstaudt