2016-05-03 18 views
-1

http://a-little-book-of-r-for-time-series.readthedocs.io/en/latest/src/timeseries.htmlを含む1か月以上の助けとオンライン予約を読んでいますが、私に必要なものと似たような例は見つからないようです。私は定期的ではないデータセットに時間のエントリを持っています。私はつぶやきを追跡しています。 (常に1本が独立したデータフレームで、カウントに従っている - ダミー)時系列多変量回帰 - 不規則な時間入力/複数変数

datetime   tweetcount retweets hashtags_used atmention likes 
02-01-2016 02:34  1   3   1    2  1 
04-01-2016 13:45  1   1   1    1  0 
04-01-2016 17:55  1   5   2    4  2 

Follow_dat

datetime   followcount 
02-01-2016 02:34  1   
04-01-2016 13:45  1   
04-01-2016 17:55  1   
- (それはダミーでつぶやき数は常に1である): ツイートのデータフレームは:ここに私のサンプルデータフレームであります

私はいくつかのことを試しました:例えば、データを数時間にカットするためにcutコマンドを使用しましたが、フォロワーがまだその時間帯につぶやくかもしれないので、これは正確ではありません。 。

私がしようとしているのは、フォロワーが時間の経過とともにどのツイート変数/要因を関連づけているかを調べることです。時間をかけてより洗練された表を作成することで精度を落としていますが、回帰をしてモデルをフィットさせる方法や、重要な要素を見つける方法がないようです。

df$week <- as.Date(cut(df$datetime, breaks = "week", start.on.monday = FALSE)) 

私がデータをカットするために使用したコードです。私は別のテーブルに集計しました。そこから私はARIMAを実行することができますが... a)これは、フォローがツイートの前に起こっても、フォローとツイートが同じ週に関連付けられることを意味します。私はフォローアップが確実になるようにする必要があります。 b)翌週にフォローが発生した場合、それは関連付けられていません。

答えて

0

datetimeを年、月、曜日、分または秒のようないくつかの要因に再コードし、適切な集計を提供するのは妥当なアプローチです。特に季節性や傾向を判断しようとしている場合には適切です。

予測/達成しようとしていることをもう少し詳しく説明できますか?

+0

ありがとう@ ellebaek-問題の部分A。フォローすることができるのは、つぶやきの後にすることができます、前にすることはできませんので、私はつぶやきの間の偽の関連をしたいと同じ時間内に従ってください。パートB)時間ごとにすべてをコーディングすると、私は11:59にツイートを作ったとしましょうが、その時に他のフォロワーはいません。おそらくそのフォロワーは前の時間からのツイートに関連付けられている可能性があります。だから、本当に必要なのは、一緒に時間を追うつもりだということですが、他の変数 - >より強い関連性を考慮して、つぶやきの後に来なければなりません。 – marichee

+0

さて、あなたはツイートのfollow_datに参加しようとしています。それは理にかなっている。あなたはデータを結合する方法を探していますが、どちらのテーブルでも外部キーにアクセスすることはできません。これは厳しいものです。私は恐れているそれぞれのつぶやきを識別するために、より多くの変数が必要です。 – ellebaek

+0

いいえ、クラスタリングに参加しているわけではありません。ツイートとフォローの間の関連性です。確率論的です。 – marichee

関連する問題