Aprioriアルゴリズムのデータを構造化する方法は？

-1

私は、1つのことについてツイートするユーザーが何か他のものについてもツイートするかどうかを確認したいと思います。私はR studioのTwittRパッケージを使用してキーワードを含むツイートをダウンロードし、それらのユーザーのタイムラインをPythonでダウンロードしました。私のデータは以下のように構成されています。Aprioriアルゴリズムのデータを構造化する方法は？

USER_NAME、ID、created_atと、テキスト

exampleuser、814495243068313603,2016-12-29 15時36分13秒、「nixon1788 @ MT：オバマと左は反ユダヤpukesを嫌しています！ #WithdrawUNFunding '

アソリアルゴリズムを使用して関連ルールを生成することはできますか？誰もがこのデータを使用するためにこのデータを構造化する方法を知っていますか？それとも私が持っているデータでも可能ですか？ここで

出典

2017-01-14 John

は[aruleのRパッケージ]（https://cran.r-project.org/web/packages/arules/index.html）を参照してください –

どのような種類あなたがここで決定しようとしていますか？ハッシュタグ間の関連。オバマとネガティブなつぶやきとの関連。いずれにしても、@ ImranAliの提案はかなり進んでいると思います。 – Abdou

こんにちは、返信ありがとう、私はキーワードを使用したい（例えば、オバマという言葉を使ってつぶやく人が "クリントン"という言葉を使ってつぶやく場合）私の問題は私のデータをトランザクションに強制する方法を知らないこのパッケージで使用するデータ。 – John

はスターターとして例を示します

txt <- c("Trump builds a wall", "Trump goes wall", "Obama buys drones", "Drones by Obama") 
library(quanteda) 
library(arules) 
dfm <- dfm(txt) 
trans <- as(as.matrix(dfm), "transactions") 
rules <- apriori(
    data = trans, 
    parameter = list(minlen = 2L, maxlen=2, conf = 1), 
    appearance = list(lhs = c("obama", "trump"), default="rhs") 
) 
inspect(rules) 
# lhs  rhs  support confidence lift 
# 1 {obama} => {drones} 0.5  1   2 
# 2 {trump} => {wall} 0.5  1   2

出典

2017-01-14 20:16:43 lukeA

こんにちは、この例は完璧に感謝しています！私の大きなデータセットをdfmに強制しようとすると、このエラーが発生します。 "validObject（r）のエラー：無効なクラス" dgTMatrix "オブジェクト：length（Dimnames [1]）はDim [1]それは8 "どのようにそれを取り除くための任意のアイデアですか？ – John

同様の問題が[quantedaパッケージのgithub repo]（https://github.com/kbenoit/quanteda/issues/168）で報告されています。このページで提案されているように、[devtools]（https://cran.r-project.org/web/packages/devtools/index.html）を使用してgithubからquantedaを更新してみてください。 –

Aprioriアルゴリズムのデータを構造化する方法は？

答えて

関連する問題