2017-01-14 9 views
-1

私は、1つのことについてツイートするユーザーが何か他のものについてもツイートするかどうかを確認したいと思います。私はR studioのTwittRパッケージを使用してキーワードを含むツイートをダウンロードし、それらのユーザーのタイムラインをPythonでダウンロードしました。私のデータは以下のように構成されています。Aprioriアルゴリズムのデータを構造化する方法は?

USER_NAME、ID、created_atと、テキスト

exampleuser、814495243068313603,2016-12-29 15時36分13秒、「nixon1788 @ MT:オバマと左は反ユダヤpukesを嫌しています! #WithdrawUNFunding '

アソリアルゴリズムを使用して関連ルールを生成することはできますか?誰もがこのデータを使用するためにこのデータを構造化する方法を知っていますか?それとも私が持っているデータでも可能ですか?ここで

+0

は[aruleのRパッケージ](https://cran.r-project.org/web/packages/arules/index.html)を参照してください –

+0

どのような種類あなたがここで決定しようとしていますか?ハッシュタグ間の関連。オバマとネガティブなつぶやきとの関連。いずれにしても、@ ImranAliの提案はかなり進んでいると思います。 – Abdou

+0

こんにちは、返信ありがとう、私はキーワードを使用したい(例えば、オバマという言葉を使ってつぶやく人が "クリントン"という言葉を使ってつぶやく場合)私の問題は私のデータをトランザクションに強制する方法を知らないこのパッケージで使用するデータ。 – John

答えて

0

はスターターとして例を示します

txt <- c("Trump builds a wall", "Trump goes wall", "Obama buys drones", "Drones by Obama") 
library(quanteda) 
library(arules) 
dfm <- dfm(txt) 
trans <- as(as.matrix(dfm), "transactions") 
rules <- apriori(
    data = trans, 
    parameter = list(minlen = 2L, maxlen=2, conf = 1), 
    appearance = list(lhs = c("obama", "trump"), default="rhs") 
) 
inspect(rules) 
# lhs  rhs  support confidence lift 
# 1 {obama} => {drones} 0.5  1   2 
# 2 {trump} => {wall} 0.5  1   2 
+0

こんにちは、この例は完璧に感謝しています!私の大きなデータセットをdfmに強制しようとすると、このエラーが発生します。 "validObject(r)のエラー: 無効なクラス" dgTMatrix "オブジェクト:length(Dimnames [1])はDim [1]それは8 "どのようにそれを取り除くための任意のアイデアですか? – John

+0

同様の問題が[quantedaパッケージのgithub repo](https://github.com/kbenoit/quanteda/issues/168)で報告されています。このページで提案されているように、[devtools](https://cran.r-project.org/web/packages/devtools/index.html)を使用してgithubからquantedaを更新してみてください。 –

関連する問題