2017-02-15 16 views
0

映画レビューの感情の極性を抽出しようとしているので、タグ付きテキスト(treetaggerを使用)からタグ(ADV-VER:pper)またはすべてのバイグラムを抽出したい(VER:プレADJ)。たとえば、下の例では、抽出されたフレーズのリストは:bien suivi、est efficaceです。フレーズ抽出R

何か助けてもらえますか?

Database <- read.table("exp.txt", header = FALSE) 
Database 



      V1  V2   V3 

1  Toujours  ADV toujours 
2   bien  ADV  bien 
3  suivi VER:pper  suivre 
4   par  PRP  par 
5   mon DET:POS  mon 
6 conseiller  NOM conseiller 
7   Bon  NAM <unknown> 
8  accueil  NOM accueil 
9   ,  PUN   , 
10   ma DET:POS  mon 
11 conseillère  NOM conseiller 
12   est VER:pres  être 
13 efficace  ADJ efficace 
14   et  KON   et 
15   à  PRP   à 
16   l' DET:ART   le 
17  écoute  NOM  écoute 
18   .     
+3

私はあなたが次のようなことを考えていると思います。 3)、b = 1:9) '、df [df $ a%in%c(" a "、" b "、" c " b "、" c ")、]。私はあなたがRを学ぶ時間を取ることをお勧めします。 – DJJ

+0

@DJJありがとう、ありがとう、私はやるでしょう:) – Poisson

答えて

1

事前にあなたに感謝私たちは何が必要達成するためにdplyrを使用することができます。

library(dplyr) 

Database %>% 
    mutate(NV1 = lead(V1), NV2 = lead(V2)) %>% 
    filter((V2 == 'ADV' & NV2 == 'VER:pper') | (V2 == 'VER:pres' & NV2 == 'ADJ')) %>% 
    transmute(result = paste(V1, NV1)) 

#  result 
# bien suivi 
# est efficace 

注意あなたが必要なすべての条件を入力する必要があり、これは、非常にスケーラブルではないことを、あなたの必要性に合うかもしれません。

+0

それは、非常にGGambaありがとうございます:) – Poisson

+0

変数に結果を保存することは可能ですか? – Poisson

+1

確かに、最後に ' - > result'を追加してください – GGamba