2
私はいくつかのテキストデータを持つdfを持っています。周波数テーブルに基づくサブセット/フィルタ
私はすでにスペルエラーが含まれている任意の行に基づいてサブセットすることができるよwords <- data.frame(terms = c("qhick brown fox",
"tom dick harry",
"cats dgs",
"qhick black fox"))
:
library(qdap)
words[check_spelling(words$terms)$row,,drop=F]
しかし、私は、私はのみ発生スペルミスにフィルタリングするテキストデータがたくさんある与えられましたより頻繁に:
> sort(which(table(which_misspelled(toString(unique(words$terms)))) > 1), decreasing = T)
qhick
2
ここで、「qhick」は一般的なスペルミスです。
どうすればこの表に基づいて単語をサブセット化できますか?したがって、 "qhick"を含む行だけを返しますか?
お返事ありがとうございました。実際には、正規表現のアプローチは、単語列が別のより大きい単語の一部である場合に予期しない動作を引き起こす可能性があるため、しばらく開いたままにします。 "cat"は "catastrophic"である。 –
問題はありません。別の考え方は、 'strsplit'を使って各行を分割し、' sapply'を使って行内の要素のいずれかが一致するかどうかを確認することです。 –
トリックはありますか?私は個人的に私は非正規表現の方法で何が起こっていることに従うことができると思うので、これを行うの "dplyr esque"の方法があるのだろうかと思うが、読むのは難しいです。とにかく、ありがとう –