2016-12-13 8 views
0

私は、ツイート、作成日、ツイートID、お気に入り、リッチカウントを含むデータフレームを持っています。私はコーパスを作成したいと思います。私はまた、ランダムな文書の001などではなく、ツイートIDで文書を識別したいと思っています。私は以下のデータで始まるデータフレームからテキスト(ツイート)属性を含むtmコーパスを作成します

...私は戻ってコーパスを変換するときに私は、しかし

myReader <- readTabular(mapping=list(content="cleantxt", id="id", created="created", retweet="retweetCount", fav="favoriteCount")) 
trumptweetsenhanced <- VCorpus(DataframeSource(trumptweets.df), readerControl=list(reader=myReader)) 

とコーパスに変換しようとするコード

    id 
1: 737243856144629760 
2: 737242308261842945 
3: 737242189055594496 
4: 737242018687164416 
5: 737241411465170944 
6: 737239685295181824 
                                    text 
1:             Have a great Memorial Day and remember that we will soon MAKE AMERICA GREAT AGAIN! 
2:     "@NBCDFW: Trump rallies veterans at annual Rolling Thunder Gathering https://twitter.com/b08FcMlgkr https://twitter.com/RCDeLvHQqD" 
3:    "@FrankyLamouche: how many of donald's rolling thunder brigade will sign up and go to war for him in the middle east." 
4: "@MariaErnandez3b: Trump Supports Rolling Thunder Rally #TRUMP STRONG https://twitter.com/pfVXQ8NdZu" So true, and remember the M.I.A.'s! 
5:  "@ScottWRasmussen: Donald Trump and Bikers Share Affection at Rolling Thunder Rally https://twitter.com/ZZl2sc29dn" A great day in D.C.! 
6: "@TeaPartyNevada: #Trump2016 "Illegals are taken care of better than our veterans." https://twitter.com/KKIgM4rNma https://twitter.com/1cEZ8wG7Cy" 
    favorited favoritwitter.comunt replyToSN    created truncated replyToSID replyToUID 
1:  FALSE   25944  NA 2016-05-30 11:26:47  FALSE   NA   NA 
2:  FALSE   9268  NA 2016-05-30 11:20:38  FALSE   NA   NA 
3:  FALSE   6739  NA 2016-05-30 11:20:09  FALSE   NA   NA 
4:  FALSE   15417  NA 2016-05-30 11:19:29  FALSE   NA   NA 
5:  FALSE   7192  NA 2016-05-30 11:17:04  FALSE   NA   NA 
6:  FALSE   9834  NA 2016-05-30 11:10:12  FALSE   NA   NA 
                      statusSource  screenName retweetCount 
1: <a href="http://twitter.com/download/android" rel="nofollow">Twitter for Android</a> realDonaldTrump   9455 
2: <a href="http://twitter.com/download/android" rel="nofollow">Twitter for Android</a> realDonaldTrump   2744 
3: <a href="http://twitter.com/download/android" rel="nofollow">Twitter for Android</a> realDonaldTrump   1604 
4: <a href="http://twitter.com/download/android" rel="nofollow">Twitter for Android</a> realDonaldTrump   4237 
5: <a href="http://twitter.com/download/android" rel="nofollow">Twitter for Android</a> realDonaldTrump   2148 
6: <a href="http://twitter.com/download/android" rel="nofollow">Twitter for Android</a> realDonaldTrump   3545 
    isRetweet retweeted longitude latitude 
1:  FALSE  FALSE  NA  NA 
2:  FALSE  FALSE  NA  NA 
3:  FALSE  FALSE  NA  NA 
4:  FALSE  FALSE  NA  NA 
5:  FALSE  FALSE  NA  NA 
6:  FALSE  FALSE  NA  NA 
                                   cleantxt 
1:             have a great memorial day and remember that we will soon make america great again! 
2:     "@nbcdfw: trump rallies veterans at annual rolling thunder gathering https://twitter.com/b08fcmlgkr https://twitter.com/rcdelvhqqd" 
3:    "@frankylamouche: how many of donald's rolling thunder brigade will sign up and go to war for him in the middle east." 
4: "@mariaernandez3b: trump supports rolling thunder rally #trump strong https://twitter.com/pfvxq8ndzu" so true, and remember the m.i.a.'s! 
5:  "@scottwrasmussen: donald trump and bikers share affection at rolling thunder rally https://twitter.com/zzl2sc29dn" a great day in d.c.! 
6: "@teapartynevada: #trump2016 "illegals are taken care of better than our veterans." https://twitter.com/kkigm4rnma https://twitter.com/1cez8wg7cy" 

の残りの部分については、以下を参照してください。データフレームには、追加された変数はありません

> head(trumptweetsenhanced_dataframe.df) 
     docs                   text 
1 doc 0001       great memori day rememb will soon make america great 
2 doc 0002       nbcdfw trump ralli veteran annual roll thunder gather 
3 doc 0003  frankylamouch mani donald roll thunder brigad will sign go war middl east 
4 doc 0004  mariaernandezb trump support roll thunder ralli trump strong true rememb ms 
5 doc 0005 scottwrasmussen donald trump biker share affect roll thunder ralli great day dc 
6 doc 0006       teapartynevada trump illeg taken care better veteran 
+0

あなたはどこに詰まっていますか?ここで具体的で答えられる質問はありません。一つの集中的な質問をしてみてください。試行したコードを表示し、どこに止まっているのかを正確に記述します。サンプルデータを[再現可能な形式](http://stackoverflow.com/questions/5963269/how-to-make-a-great-r-reproducible-example)に含めます。それはあなたを助けることをより容易にするでしょう。 – MrFlick

+0

私はより多くの情報を提供しました。私はその質問を1つの特定の問題に限定しました。 – idomeneus

答えて

1

0123を使用してツイートコーパスにメタデータを追加できます機能。 library(tm); example(meta)を参照してください。

このメタデータアノテーションはコーパス単位で発生する可能性があります。このコーパスのつぶやきが収穫された日付や検索クエリ文字列、API呼び出しの詳細などの「共通の」メタデータを保存することもできますなんでも。

注釈も(ごとのつぶやきレベルで、この場合は、)ごとのドキュメントレベルで発生することができます - あなたは、このようなリツイートカウントとしてあなたtrumptweets.dfデータフレームからコーパス内のつぶやき - 属性を格納することができ、好きな数、言語など

これは、賢明なハウスキーピングを意味します。 meta()を読み書きの方法で呼び出すためには、通常、関数の* apply-familyと共にカスタム関数のセットを使用します。 (または、purrr :: walk *、またはpurrr :: map *を使用してください)

私はこれを私の頭の上から書いています。私はmeta()で作業して以来、しばらくしています。おそらく、全く異なる方法(ネストされたデータフレームを使用するか、他のテキストマイニングパッケージを使用する)があります。

+0

ありがとうございました...これは非常に役に立ちますが、それは私が特定の意味でやろうとしたことです。私が使ったコードを見てください... – idomeneus

関連する問題