フレーズ抽出R

映画レビューの感情の極性を抽出しようとしているので、タグ付きテキスト（treetaggerを使用）からタグ（ADV-VER：pper）またはすべてのバイグラムを抽出したい（VER：プレADJ）。たとえば、下の例では、抽出されたフレーズのリストは：bien suivi、est efficaceです。フレーズ抽出R

何か助けてもらえますか？

が

Database <- read.table("exp.txt", header = FALSE) 
Database 



      V1  V2   V3 

1  Toujours  ADV toujours 
2   bien  ADV  bien 
3  suivi VER:pper  suivre 
4   par  PRP  par 
5   mon DET:POS  mon 
6 conseiller  NOM conseiller 
7   Bon  NAM <unknown> 
8  accueil  NOM accueil 
9   ,  PUN   , 
10   ma DET:POS  mon 
11 conseillère  NOM conseiller 
12   est VER:pres  être 
13 efficace  ADJ efficace 
14   et  KON   et 
15   à  PRP   à 
16   l' DET:ART   le 
17  écoute  NOM  écoute 
18   .

出典

2017-02-15 Poisson

私はあなたが次のようなことを考えていると思います。 3）、b = 1：9） '、df [df $ a％in％c（" a "、" b "、" c " b "、" c "）、]。私はあなたがRを学ぶ時間を取ることをお勧めします。 – DJJ

@DJJありがとう、ありがとう、私はやるでしょう:) – Poisson

事前にあなたに感謝私たちは何が必要達成するためにdplyrを使用することができます。

library(dplyr) 

Database %>% 
    mutate(NV1 = lead(V1), NV2 = lead(V2)) %>% 
    filter((V2 == 'ADV' & NV2 == 'VER:pper') | (V2 == 'VER:pres' & NV2 == 'ADJ')) %>% 
    transmute(result = paste(V1, NV1)) 

#  result 
# bien suivi 
# est efficace

注意あなたが必要なすべての条件を入力する必要があり、これは、非常にスケーラブルではないことを、あなたの必要性に合うかもしれません。

出典

2017-02-15 14:58:41 GGamba

それは、非常にGGambaありがとうございます:) – Poisson

変数に結果を保存することは可能ですか？ – Poisson

確かに、最後に ' - > result'を追加してください – GGamba

答えて

関連する問題