2017-06-07 16 views
0

私はWikipedia編集のデータフレームを持っています。ユーザの編集回数(1回目の編集、2回目の編集など)、編集が行われたタイムスタンプ、いくつの単語が追加されたのかを示します。ggplotsのR軸が正しくありませんgeom_bar()

実際のデータセットでは、ユーザーあたり20,000件の編集がありますが、一部の編集では最大30,000語が追加されます。

しかし、私の問題を例示するためにhere is a downloadable small exampleデータセット。ヘッダーは次のようになります。私は編集進行間と時間にわたる追加した単語の分布をプロットしようとしています

enter image description here

barplot(UserFrame3$NoOfAdds,UserFrame3$EditNo)

enter image description here

しかし、私はよりよいグラフィックスと、よりカスタマイズオプションについてggplotでそれをしたい:私は、通常のRのbarplotを使用している場合、私は期待と同じように動作します。 linegraphため

ggplot(data = UserFrame3, aes(x = UserFrame3$EditNo, y = UserFrame3$NoOfAdds)) + geom_point(size = 0.1)

enter image description here

同じ:

ggplot(data = UserFrame3, aes(x = UserFrame3$EditNo, y = UserFrame3$NoOfAdds)) +geom_line(size = 0.1)

enter image description here

私は散布図としてこれをプロットすると

は、私は同じ結果を得ます

しかし、私はggplotでバーグラフとしてプロットしてみたときに、私はこの結果を得る:

ggplot(data = UserFrame3, aes(x = UserFrame3$EditNo, y = UserFrame3$NoOfAdds)) + geom_bar(stat = "identity", position = "dodge")

enter image description here

をX軸に、より多くの穴があるように見え、最大値は、どこにあるべきでもない(y = 317)。

私は、ggplotが何らかの形でバーをグループ化して、 "dodge"パラメータにもかかわらず実際の値の代わりに手段を使用していると思われますか?どうすればこれを避けることができますか?複数の編集を平均してggplotを平均化せずに、時間の経過を棒グラフとしてプロットする方法はありますか?

+0

は、あなたではなくリンクを提供する 'dputを()'を使用してデータを表示することができます。この例では、私の作品 'mtcars%>% ggplot(AES(MPG、DISP))+ geom_point()+ geom_line()+ geom_bar(STAT = "アイデンティティ"、位置= "かわす")' – Jimbou

+0

だろう私はちょうどここにそれをとにかく掲示する必要がありますか? –

+0

問題を理解することができますが、あなたの質問は過負荷にならないようにデータを減らすことをお勧めします) – Jimbou

答えて

1

棒グラフと比較して、より多くのx軸「穴」が必要です。線はゼロ値を結合し、棒は結合しません。

私はあなたのデータのダウンロードとgeom_colを使用し、予想通り、それが見えます:

UserFrame3 %>% 
    ggplot(aes(EditNo, NoOfAdds)) + geom_col() 

enter image description here

関連する問題