2011-12-21 4 views
3

非常に大きなデータセットのRでボックスプロットを作成しようとしています。データを含むファイルは2.5Gで、インポートしようとするとRがクラッシュします。幸いにも、(python)ソフトウェアのいくつかの他の部分は、問題なく平均と分散を生成することができます。これは私が実際に(今のところ)プロットしたいすべてのものです。Rでボックスプロットを作成して既に処理されたデータに格子を使用する

私が今までに見つけたすべてのチュートリアルでは、完全なデータセットを入力する必要があります。その後、Rは統計情報自体を計算しますが、bwplotに平均、中央値、最小値、最大値などを渡す方法は不思議でした。プロットするだけです私がRと格子を好む理由は、コードが終わる可能性があるソフトウェアスイートとうまく統合されるからです.Matlabやその他のソフトウェアを使用すると、現在のユーザーのもう一つの要件であるため、問題になります。

+0

基本グラフィックスまたはggplotを使用したい場合は、[this](http://stackoverflow.com/q/7933268/324364)の質問が参考になります。 – joran

答えて

6

ボックスプロットdo プロットの平均または分散。実際には、量が中央値、四分位数、およびその範囲(外れ値)外にあるデータポイントのIRQプラスすべて内の閉鎖データポイントの実際の値であるため、適切なボックスプロットをプロットするために完全ランクのデータが必要です。大規模なデータセットの場合、これは一般的には良い考えではありません(定義上、数百万の外れ値があるためです)。

あなたは必要な要約を任意に生成でき、bxpをプロットすることができます。?bxp Rを参照してください。上記以外の場合は、プロットする量を明確にしてください。

+0

あなたは正しいですが、平均と分散のみを使ってボックスプロットではなく、これは最善のことではありませんが、今のところデータを見て、どのように動作するか見てみたいです。 bxpはまさに私が探しているものです。ありがとうございました! – Paul

関連する問題