2017-09-02 3 views
0

私は感情のデータセットを使って作業しており、bingとnrcのデータセットには肯定的な感情と否定的な感情の両方を持つ単語がいくつか含まれています。肯定的な感情と否定的な感情の両方を伴う単語tidytext

**ビング - 正と負の感情を持つ三つの言葉**

env_test_bing_raw <- get_sentiments("bing") %>% 
    filter(word %in% c("envious", "enviously","enviousness")) 

# A tibble: 6 x 2 
     word sentiment 
     <chr>  <chr> 
1  envious positive 
2  envious negative 
3 enviously positive 
4 enviously negative 
5 enviousness positive 
6 enviousness negative 

** NRC - 正と負の感情を持つ81個の言葉**

test_nrc <- as.data.frame(
     get_sentiments("nrc") %>% 
     filter(sentiment %in% c("positive","negative")) %>% 
     group_by(word) %>% 
     summarize(count = n()) %>% 
     filter(count > 1)) 

env_test_nrc <- get_sentiments("nrc") %>% 
    filter(sentiment %in% c("positive","negative")) %>% 
    filter(word %in% test_nrc$word) 

# A tibble: 162 x 2 
     word sentiment 
     <chr>  <chr> 
1 abundance negative 
2 abundance positive 
3  armed negative 
4  armed positive 
5  balm negative 
6  balm positive 
7  boast negative 
8  boast positive 
9 boisterous negative 
10 boisterous positive 
# ... with 152 more rows 

私が持っている場合、私は興味がありました何か間違っているか、言葉が単一のソースデータセットに否定的なものと肯定的なものの両方を持つことができます。これらの状況を処理するための標準的なプラクティスは何ですか?

ありがとうございました!

答えて

0

あなたは何か悪いことはしていません。

これらのレキシコンは、さまざまな方法で作成されています。たとえば、NRC lexiconは、Amazon Mechanical Mechanical Turkを介して構築され、人がたくさんの単語を表示し、それぞれの単語に喜び、悲しみ、肯定的または否定的な影響などが関連付けられているかどうかを尋ねる。その後、私たち人間言語ユーザーが「騒々しい」のような肯定的な感情と否定的な感情の両方に関連付けることができるいくつかの英語の単語があり、これらの単語を両方として含むことを決めたこれらの辞書を作成した研究者。

「厄介な」という言葉を持ち、このような辞書を使用するテキストデータセットをお持ちの場合は、正と負の両方の方向に寄与します(怒り、期待、喜びにもなります)。具体的事例)。センチメント、セクション、またはドキュメントのネット感情(正のマイナス負)を計算すると、その特定の単語の効果は打ち消されます。

library(tidytext) 
library(dplyr) 

get_sentiments("nrc") %>% 
    filter(word == "boisterous") 

#> # A tibble: 5 x 2 
#>   word sentiment 
#>  <chr>  <chr> 
#> 1 boisterous  anger 
#> 2 boisterous anticipation 
#> 3 boisterous   joy 
#> 4 boisterous  negative 
#> 5 boisterous  positive