2017-10-12 8 views
0

私は、1列(Place)が位置センテンスからなるデータセットを作成しています。セパレータで列を右から左に分割するR

librabry(tidyverse) 

example <- tibble(Datum = c("October 1st 2017", 
          "October 2st 2017", 
          "October 3rd 2017"), 
      Place = c("Tabiyyah Jazeera village, 20km south east of Deir Ezzor, Deir Ezzor Governorate, Syria", 
         "Abu Kamal, Deir Ezzor Governorate, Syria", 
         "شارع القطار al Qitar [train] street, al-Tawassiya area, north of Raqqah city centre, Raqqah governorate, Syria")) 

私はtidyverse packageの溶液を好むようにカンマ区切りによってPlace列を分割したいです。 Placeの値は長さが異なるため、右から左に向かって始めたいと思います。したがって、国Syriaはこのデータフレームの最後の列の値です。

ああ、RegExコードを使ってアラビア文字を削除するボーナスはありますか?

ありがとうございます。

編集:

gsub("[\u0600-\u06FF]", "", airstrikes_okt_clean$Plek) 

そしてtidyr方法で列を分割:アラビア語の文字(@のg5wのおかげで)除去するため :私の答えを見つけ

airstrikes_okt_clean <- separate(example, 
          Place, 
          into = c("detail", 
             "detail2", 
             "City_or_village", 
             "District", 
             "Country"), 
          sep = ",", 
          fill = "left") 

答えて

1

ちょうど分割コンマの文字列とそれを逆にします。分割前に、アラビア語の文字を取り除くために

lapply(strsplit(Place, ","), rev) 
[[1]] 
[1] " Syria"       " Deir Ezzor Governorate"  
[3] " 20km south east of Deir Ezzor" "Tabiyyah Jazeera village"  

[[2]] 
[1] " Syria"     " Deir Ezzor Governorate" 
[3] "Abu Kamal"    

[[3]] 
[1] " Syria"        " Raqqah governorate"     
[3] " north of Raqqah city centre"  " al-Tawassiya area"     
[5] "شارع القطار al Qitar [train] street" 

、ここでワンライナーだ

gsub("[\u0600-\u06FF]", "", Place) 
[1] "Tabiyyah Jazeera village, 20km south east of Deir Ezzor, Deir Ezzor Governorate, Syria"    
[2] "Abu Kamal, Deir Ezzor Governorate, Syria"                
[3] " al Qitar [train] street, al-Tawassiya area, north of Raqqah city centre, Raqqah governorate, Syria" 
+0

'lapply()'のない解決策もありますが、tidyrはありますか?たぶん 'separator'関数を使用していますか? – Tdebeus

+0

@Tdebeusあるかもしれないが、私は整った男ではない。 – G5W

0

を試してみてください。

sapply(strsplit(example$Place, ","), function(x) trimws(x[length(x)])) 

それはSyriaや他のことが、最後のコンマの後の文字列を返します。

関連する問題