Rプログラミングでトークンを保持する方法（、＃記号）

Rプログラミングを使用する私は仕事用広告から（c＃、C++ ,. net）のような単語を持つテキストファイルを処理しています。＃、++、ドットは削除されます。結果のトークンにそれらを保持するにはどうすればよいですか？Rプログラミングでトークンを保持する方法（、＃記号）

unnest_tokens(word,REQUIREMENTS, token = "words",to_lower=TRUE)

出典

2017-09-29 Ahmed Mohammed

問題は（おそらく正規表現\\W+を使用して）非単語の文字に分割引数token = "words"、です。この関数はデリミタを捨て去ります。その文字を保持するには、"words"以外の引数を使用する必要があります。あなたはtoken = "regex"と、このようなものを使用して独自の分割正規表現を定義することがあります：

unnest_tokens(word, 
       REQUIREMENTS, 
       token = "regex", 
       to_lower = TRUE, 
       pattern = "\\s+") # split on whitespace rather than non-word elements

この方法は、you can define whatever regex you needテキストをトークン化された方法をカスタマイズします。

出典

2017-09-29 06:47:00 PaSTE

ありがとう、非常に役立つ –

Rプログラミングでトークンを保持する方法（、＃記号）

答えて

関連する問題