3
「@」や「&」などの英数字以外の記号は失われていますので、それらを保管する必要があります。Rでtokenizers
パッケージを使用しています。ここで私が使用している機能は次のとおりです。Rの単語をトークン化するときに英数字以外の記号を保持する方法は?
tokenize_ngrams("My number & email address [email protected]", lowercase = FALSE, n = 3, n_min = 1,stopwords = character(), ngram_delim = " ", simplify = FALSE)
私はtokenize_character_shingles
は句読点を維持することができますが、トークン化は、文字ではなく、言葉に適用されるstrip_non_alphanum
引数を持って知っています。
誰でもこの問題を処理する方法を知っていますか?