bodyText
という名前のツイートと呼ばれるデータフレームsparkR
があります。sparkr dataframe正規表現を使用したカラム別フィルタ
私がしようとしているのは、bodyTextの正規表現条件でデータフレームをフィルタリングすることです。したがって、bodyTextに「集会」や「抗議」があるつぶやきをフィルタリングすることができます。
私がこれまでにしようとしていることは次のとおりです。
subset(twitter_df, grepl("(?<=\\b)rally", twitter_df$bodyText, ignore.case = TRUE))
filter(twitter_df, grepl("(?<=\\b)rally", twitter_df$bodyText, ignore.case = TRUE))
が、両方のケースで、このエラーが表示されます。
Error in as.character.default(x) : no method for coercing this S4 class to a vector Calls: main ... .local -> [ -> grepl -> as.character -> as.character.default
おかげで非常に多くの作品、。私はas.DataFrameにsqlContextを追加するだけでした: 'as.DataFrame(sqlContext、df)' –