2017-03-09 6 views
-1

私は以下のようなデータセットを持っています。少なくとも10件のレビューがあるIDのみを選択するにはどうすればよいですか。データセットは非常に大きいので、私はすべてのIDを選択したくはありませんが、ビールについてのいくつかのレビューは明確な洞察を提供しないかもしれません。N個以上のレビューがあるビールのみを選択する

beer_beerid review_profilename  review_overall 
    48215   stcules    3.0 
    52159   oline73    3.0 
    52159  alpinebryant    3.0 
    52159   rawthar    4.0 
    52159  RangerClegg    3.5 

答えて

0

これを行うには多くの方法を、カルレスは細かい基本R・ソリューションを持っています。 dplyrを使用すると、次の操作を実行できます。

library(dplyr) 
df %>% group_by(beer_beerid) %>% filter(n() > 9) 
0

ここには、考えられる方法があります。

TRUE/FALSEの値を持つ行が、idが10回以上繰り返された行を示す値が必要です。次にそれにdfのインデックスを付けます。

table(df$beer_beerid)beer_beeridの番号が返されます。それでは、それよりも大きなものを取ることができます。

which(table(df$beer_beerid) > 10)。 10回以上繰り返されるビールを返します。

最後にあなたがインデックスあなたdfことができます:

df[df$beer_beerid == which(table(df$beer_beerid) > 10), 
+0

ありがとうございました! dplyrコマンドが正常に実行されていたが、どのコマンドを使用してエラーがスローされたか:長いオブジェクト長は短いオブジェクト長の倍数ではありません。しかし、私は正しいN(9または10または15など)がggplotを通して視覚化を使用して到着できるかどうか疑問に思っていました! –

関連する問題