つぶやきから適切な英語の単語を削除するR

Rを使用してTwitterのデータに取り組んでいて、ツイートからすべての適切な英語の単語を削除しようとしています。アイデアは、私が記録したつぶやきを持つ特定の人口統計学者が使用する口語略語、タイプミスおよびスラングを見ることです。つぶやきから適切な英語の単語を削除するR

例：上記操作の後

tweet <- c("Trying to find the solution frustrated af")

、私は（私がダウンロードされます）辞書に対するツイートを洗浄する考えが、そこなければなりません

のみ「AF」を持っていると思いますより簡単な選択肢になります。 Pythonのあらゆる解決策も役立ちます。

むしろ新しい&面白い packageを使用して

出典

2016-07-14 Ashwin Pai

あなたはRで 'aspell'を使用してみたのですか？ –

別のhunspellベースのソリューション：

# install.packages("hunspell") # uncomment & run if needed 
library(hunspell) 
tweet <- c("Trying to find the solution frustrated af") 
(tokens <- strsplit(tweet, " ")[[1]]) 
# [1] "Trying"  "to"   "find"  "the"  "solution" "frustrated" "af"   
tokens[!hunspell_check(tokens), dict = "en_US"] 
# [1] "af"

出典

2016-07-14 13:08:15 lukeA

つぶやきから適切な英語の単語を削除するR

答えて

関連する問題