2017-09-29 9 views

答えて

1

問題は(おそらく正規表現\\W+を使用して)非単語の文字に分割引数token = "words"、です。この関数はデリミタを捨て去ります。その文字を保持するには、"words"以外の引数を使用する必要があります。あなたはtoken = "regex"と、このようなものを使用して独自の分割正規表現を定義することがあります:

unnest_tokens(word, 
       REQUIREMENTS, 
       token = "regex", 
       to_lower = TRUE, 
       pattern = "\\s+") # split on whitespace rather than non-word elements 

この方法は、you can define whatever regex you needテキストをトークン化された方法をカスタマイズします。

+0

ありがとう、非常に役立つ –

関連する問題