私は、tmパッケージを使用してRでテキストセンチメント分析を行っています。私はロイターからのニュース記事を盗んで、日付に応じて変数名を付けました。私はこのような一日あたりの複数の記事、示すために、B、Cなどを追加しました:複数のテキストを含む1日のセンチメントスコアを平均化するにはどうすればよいですか?
art170411aを
art170411b
art170411c
art170410a
...
...
私はその後、実行します記事ごとに感情スコアを与える標準的な正/負の用語分析。私の質問は、これらのスコアを平均して1日あたりの感情スコアを得る方法です。
私は3年以上にわたって私の2000年以上の記事を含むVCorpusを持っています。すべての記事に日付スタンプが付いています。
corp_list <- lapply(corp, FUN = paste, collapse=" ")
corp_bag <- str_split(corp_list, pattern = "\\s+")
私は2つの形式で最終的なスコアがあります:だから
score_naive_list <- lapply(corp_bag, function(x) { sum(!is.na(match(x, pos))) - sum(!is.na(match(x, neg)))})
score_naive <- unlist(lapply(corp_bag, function(x) { sum(!is.na(match(x, pos))) - sum(!is.na(match(x, neg)))}))
を私はリストに私のコーパスを変換してから、このような言葉のバッグている正/負の条件とのマッチングのために私の質問:複数のセンチメントスコアを平均して1日スコアにするにはどうすればよいですか?
'meta(corp、" datetimestamp ")'はタイムスタンプの配列(または単一の列data.frame)を与えますか?もしあなたが私に 'メタ(corp、" datetimestamp ")[1]'を与えることができますか? –
これは出力です: $ art140501a.txt [1] "2017-06-07 14:30:29 GMT" – ymbrouwer
もう1つの方法は、別の記事のテキストを1つにコンパイルしてから、コンパイルされたテキストからの単語。それは働くだろうか? – ymbrouwer