つぶやきに使用されるハッシュタグのデータセットがあります。各行は特定のツイートであり、各変数は各ツイートに使用される異なるハッシュタグであるため、いくつかの観測では多くの変数が空です。彼らは少数のhasthagsを持っているので。私の究極の目的は、3つの最も一般的なハッシュタグの同時発生を見ることですが、そのためにはまず、どのトゥイットがこれらのトップ3ハッシュタグを使用しているかを見たいと思います。一致する文字列のリストを見つける
V1 | V2 | V3 | top3
nyc| | | nyc, cool, nyc2016
cool| nyc | | nyc, cool, nyc2016
hello| cool | nyc | nyc, cool, nyc2016
winter| nyc | | nyc, cool, nyc2016
したがって、この例では、トップ3のハッシュタグはNYCとクールではなく、ハローと冬だった:
私のデータセットには、次のようになります。各ハッシュタグは
df1<-sapply(df$V1, function(x) grepl(sprintf('\\b%s\\b', x), df$top3))
を行うことでTOP3間にあった場合
は、私が見てみました。しかし、それは時間がかかりすぎています。そして、私はV2とV3(これはループを行うことができますが、実行するにはさらに時間がかかるでしょう)のためにこれを行う必要があります。提案がありますか?
'sapply(df $ V1、function(x)x%in unlist(strsplit(df $ top3、"、 ")))'? – JasonAizkalns