wordcloudパッケージを使用してwordcloudを作成すると、デフォルトでは3文字以下の単語(「tv」など)が省略されているようです。私はこれがバグではなく機能だと思っていますが、引き続き最小文字カウントを調整する議論を見つけることができませんでした。R:単語3文字以下の単語を省略したwordcloudパッケージ
wordcloudはコーパス()とtm_mapで作成し、前処理した単語()TMパッケージから機能のコーパスに対して実行されます。問題の言葉が失われていないことを確認しました。ストップワードを削除する - それはまだwordcloud()機能が実行されている最後のコーパスにあります。
再現性の例[編集]
実データは明らかに異なって見えます。ただし、以下の行はエラーを複製します。
customPalette <- brewer.pal(4, "Dark2")
wordVector <- c(rep("tv", 15), rep("computer", 4), rep("phone", 16), rep("tablet",10))
newCorpus <- Corpus(VectorSource(wordVector))
wordcloud(newCorpus, max.words = 100, scale=c(8,1), random.order = FALSE, random.color = TRUE, colors = customPalette)
これは、出力を作成します。
セッション情報:
R version 3.3.2 (2016-10-31)
Platform: x86_64-redhat-linux-gnu (64-bit)
Running under: Amazon Linux AMI 2016.09
locale:
[1] LC_CTYPE=en_US.UTF-8 LC_NUMERIC=C LC_TIME=en_US.UTF-8 LC_COLLATE=en_US.UTF-8 LC_MONETARY=en_US.UTF-8
[6] LC_MESSAGES=en_US.UTF-8 LC_PAPER=en_US.UTF-8 LC_NAME=C LC_ADDRESS=C LC_TELEPHONE=C
[11] LC_MEASUREMENT=en_US.UTF-8 LC_IDENTIFICATION=C
attached base packages:
[1] stats graphics grDevices utils datasets methods base
other attached packages:
[1] bindrcpp_0.2 zoo_1.8-0 wordcloud_2.5 RColorBrewer_1.1-2 SnowballC_0.5.1 tm_0.7-1
[7] NLP_0.1-10 reshape2_1.4.2 lubridate_1.6.0 scales_0.4.1 ggplot2_2.2.1 aws.s3_0.3.3
[13] githubinstall_0.2.1.9001 aws.signature_0.3.2 RJDBC_0.2-5 rJava_0.9-8 DBI_0.7 RCurl_1.95-4.8
[19] bitops_1.0-6 jsonlite_1.5 dplyr_0.7.0 sparklyr_0.5.6 drat_0.1.2 devtools_1.13.2
loaded via a namespace (and not attached):
[1] slam_0.1-40 lattice_0.20-34 colorspace_1.3-2 htmltools_0.3.6 yaml_2.1.14 base64enc_0.1-3 rlang_0.1.1 glue_1.1.1
[9] withr_1.0.2 dbplyr_1.0.0 bindr_0.1 plyr_1.8.4 stringr_1.2.0 munsell_0.4.3 gtable_0.2.0 memoise_1.1.0
[17] labeling_0.3 httpuv_1.3.3 parallel_3.3.2 curl_2.6 Rcpp_0.12.11 xtable_1.8-2 backports_1.1.0 config_0.2
[25] mime_0.5 digest_0.6.12 stringi_1.1.5 shiny_1.0.3 rprojroot_1.2 grid_3.3.2 tools_3.3.2 magrittr_1.5
[33] lazyeval_0.2.0 tibble_1.3.3 pkgconfig_2.0.1 data.table_1.10.4 xml2_1.1.1 assertthat_0.2.0 httr_1.2.1 rstudioapi_0.6
[41] R6_2.2.2 git2r_0.18.0
以下の代替的なアプローチは、単語のベクトルを取り、個別にその周波数に
wordcloud
の能力を使用して、動作します... 'という言葉として。周波数が低いためかもしれませんか? Wordcloudでは、デフォルトで3未満の頻度の単語は無視され、例の上位100語にも制限されます。それでも問題が発生した場合は、再現可能なサンプルを提供する必要があります。 –それは面白いです。特定のデータセットを共有せずにエラーの再現可能なバージョンを作成できるかどうかを確認します。問題の言葉は、単語カウントバーをクリアする必要があります。 –
再現可能な例で更新しました。指摘してくれてありがとう。 –