私は再現性のためにKnitrを使用して 'tm'と 'RWeka'を使っていくつかの初期テキストマイニングを行っています。Ritudioとは異なる結果を提供するKnitr
私は2つのテキストファイルに基づいて、コーパスのための用語 - 文書行列を取得しようとしている、と私はHTMLファイルにそれを編むとき、私はRStudioでコードを実行したときにプロセスが異なる結果を持っています
...他のドキュメント出力を試したときPDFとWord出力:
はRStudioに同意します。そして、私はHTML出力を必要とする
....
に行くことかもしれないものの任意のアイデア?
ここでは.Rmd
コード
---
title: "test"
author: "me"
output: word_document
---
```{r init, echo=FALSE, warning=FALSE, cache=TRUE, message=FALSE}
library(knitr)
library(tm)
library(SnowballC)
library(RWeka)
setwd("~")
options(mc.cores=1) # some problems with parallel processing
```
```{r 1-gram-test, echo=FALSE, eval=TRUE,cache=TRUE}
doc1 <- c("en un lugar de la mancha de cuyo nombre no quiero acordarme habitaba un hidalgo de los de adarga antigual, rocín flaco y galgo corredor")
doc2 <- c("había una vez un barquito chiquitito, que no sabía, que no sabía, que no sabía navegar... pasaron un dos tres cuatro cinco seis semanas y el barquito navegó.")
docs <- c(doc1, doc2)
es <- Corpus(VectorSource(docs),
readerControl = list(reader = readPlain,
language = "ES-es", load = TRUE))
es
# convert to plain text
es1 <- tm_map(es, PlainTextDocument)
monogramtok <- function(x) {
RWeka::NGramTokenizer(x, RWeka::Weka_control(min = 1, max = 1))
}
es_tdm1 <- TermDocumentMatrix(es1)
esmono_tdm1 <- TermDocumentMatrix(es1,
control = list(tokenize = monogramtok,
wordLengths = c(1, Inf))) #,
printf("es_tdm1")
es_tdm1
printf("esmono_tdm1")
esmono_tdm1
`
のSessionInfo(IS) Rバージョン3.2.3(2015年12月10日) プラットフォーム:x86_64の-アップルdarwin13 OS X 10.11.4(エルキャピタン)
ロケール: [3] EN_US.UTF-8/EN_US.UTF-8/EN_US.UTF-8/C /の下に実行.4.0(64ビット) EN_US.UTF-8/EN_US.UTF-8
取り付けられたベースパッケージ: [3]統計グラフィックgrDevices utilsのデータセットメソッドベース
他の取り付けパッケージ: [3] R.utils_2.2.0 R.oo_1 .20.0 R.methodsS3_1.7.1 dplyr_0.4.3 xtable_1.8-0
[6] pander_0.6.0 RWeka_0.4-24 SnowballC_0.5.1 tm_0.6-2 NLP_0.1-9
[11] knitr_1.12.3
どう違うのですか?警告やエラーはありますか? – alistaire
コンソールで同じコードを複数回実行すると、結果は一致しますか? – Gregor
警告やエラーは一切ありません(PDF、HTMLまたはRStudio)。 –