0
Rプログラミングを使用する 私は仕事用広告から(c#、C++ ,. net)のような単語を持つテキストファイルを処理しています。 #、++、ドットは削除されます。 結果のトークンにそれらを保持するにはどうすればよいですか?Rプログラミングでトークンを保持する方法(、#記号)
unnest_tokens(word,REQUIREMENTS, token = "words",to_lower=TRUE)
Rプログラミングを使用する 私は仕事用広告から(c#、C++ ,. net)のような単語を持つテキストファイルを処理しています。 #、++、ドットは削除されます。 結果のトークンにそれらを保持するにはどうすればよいですか?Rプログラミングでトークンを保持する方法(、#記号)
unnest_tokens(word,REQUIREMENTS, token = "words",to_lower=TRUE)
問題は(おそらく正規表現\\W+
を使用して)非単語の文字に分割引数token = "words"
、です。この関数はデリミタを捨て去ります。その文字を保持するには、"words"
以外の引数を使用する必要があります。あなたはtoken = "regex"
と、このようなものを使用して独自の分割正規表現を定義することがあります:
unnest_tokens(word,
REQUIREMENTS,
token = "regex",
to_lower = TRUE,
pattern = "\\s+") # split on whitespace rather than non-word elements
この方法は、you can define whatever regex you needテキストをトークン化された方法をカスタマイズします。
ありがとう、非常に役立つ –