2017-03-31 11 views
0

大きなTwitterデータセットで作業していますが、時間列を使用して単語列と時間を1つずつ集計し、ヒストグラムとして表示しようとしています。時間とともに)。私はRでこれをどうやってやれるのか誰かが知っているのだろうか?時間単位で単語を数える方法は?

データのサンプルは、このリンクを介してアクセス:https://docs.google.com/spreadsheets/d/1JhXEyzkjPs59hVgoS3lW7e0Fcumis62QDUvuMP2q5aQ/edit?usp=sharing

おかげで、 ジェームズ

+0

これまでに何を試したのですが、なぜ機能しなかったのですか?他人があなたのためにあなたの仕事のすべてをやるようにするための道はありません。 – vincentmajor

+0

'dplyr'と' lubridate'パッケージを見てください。 – vincentmajor

答えて

0

Rにあなたのファイルを読み、(私はあなたが以下の私のコードにあったXへのファイルのデータを設定する変数を仮定)次に、以下を使用します。

require(dplyr) 
x%>%group_by(Time, Word)%>% 
    summarise(count=n()) 

それは、このような出力を返します。

    Time  Word count 
       <fctr> <fctr> <int> 
1 2015/04/30 21:59:00   a  1 
2 2015/04/30 21:59:00 baltimore  1 
3 2015/04/30 21:59:00  check  1 
4 2015/04/30 21:59:00 common  1 
5 2015/04/30 21:59:00 grabbed  1 
6 2015/04/30 21:59:00  have  1 
7 2015/04/30 21:59:00  her  1 

データテーブルまたはデータフレームでキャプチャできるもの

+0

これは要求どおりに時間単位でグループ化されていません。 – vincentmajor

+0

時間部分が欠けていました。 – sconfluentus

+0

'%>%group_by(format(Time、%H)、Word)%>%'を使用してください。 format(Time、%H)は、datatimeオブジェクトをちょうど1時間の文字列に変換します。 – Dave2e

関連する問題