私はスペイン語のテキストでunnest_tokensを使用しようとしています。ユニグラムでは正常に動作しますが、バイグラムでは特殊文字が壊れます。tidytext :: unnest_tokensはスペイン語の文字で動作しますか?
コードはLinuxでも正常に動作します。ロケールに関する情報を追加しました。
library(tidytext)
library(dplyr)
df <- data_frame(
text = "César Moreira Nuñez"
)
# works ok:
df %>%
unnest_tokens(word, text)
# # A tibble: 3 x 1
# word
# <chr>
# 1 césar
# 2 moreira
# 3 nuñez
# breaks é and ñ
df %>%
unnest_tokens(bigram, text, token = "ngrams", n = 2)
# # A tibble: 2 x 1
# bigram
# <chr>
# 1 cã©sar moreira
# 2 moreira nuã±ez
> Sys.getlocale()
[1] "LC_COLLATE=English_United States.1252;LC_CTYPE=English_United
States.1252;LC_MONETARY=English_United
States.1252;LC_NUMERIC=C;LC_TIME=English_United States.1252"
あなたは() 'だけでなく' Sys.getlocaleの出力を投稿することができます:
text
列、のようなものを使用してunnest_tokens
ような結果は、あなたが、df
で結果を参加与える取得するには?デバッグに役立ちます。 – BrodieGこれを再現することはできませんが、私はそれが[Unicode正規化](https://en.wikipedia.org/wiki/Unicode_equivalence)の問題だと強く思っています。 stringiには変換関数があります。 '?stringi :: stri_trans_nfc'を参照してください。 – alistaire