2016-07-14 20 views
2

Rを使用してTwitterのデータに取り組んでいて、ツイートからすべての適切な英語の単語を削除しようとしています。アイデアは、私が記録したつぶやきを持つ特定の人口統計学者が使用する口語略語、タイプミスおよびスラングを見ることです。つぶやきから適切な英語の単語を削除するR

例:上記操作の後

tweet <- c("Trying to find the solution frustrated af") 

、私は(私がダウンロードされます)辞書に対するツイートを洗浄する考えが、そこなければなりません

のみ「AF」を持っていると思いますより簡単な選択肢になります。 Pythonのあらゆる解決策も役立ちます。

むしろ新しい&面白い packageを使用して
+2

あなたはRで 'aspell'を使用してみたのですか? –

答えて

0

別のhunspellベースのソリューション:

# install.packages("hunspell") # uncomment & run if needed 
library(hunspell) 
tweet <- c("Trying to find the solution frustrated af") 
(tokens <- strsplit(tweet, " ")[[1]]) 
# [1] "Trying"  "to"   "find"  "the"  "solution" "frustrated" "af"   
tokens[!hunspell_check(tokens), dict = "en_US"] 
# [1] "af" 
関連する問題