文書用語行列の「相違点」

100の文書があるとします。70は政治、30は数学（奇妙な組み合わせ、私はそれを知っています）です。文書用語行列の「相違点」

私は（ドキュメントをコーパスを作る：私の目標は、私は、文書のセット全体を考えるとき、私はこれが好きですかなど、SOM、ネットワーク分析、多次元尺度分析のようなXY throught方法でそれらを表現するためにあります）を100要素とする。
私は文書用語行列（dtm）を作成します。
from dtm私は、ドキュメントを構成する用語やドキュメント自体について（私が表現したいものに従って）距離の行列（dist）を作成します。

明らかに私は2つのグラフィックを別々に作ることができますが、私は別のことをしたいと思います。は、私は3つのコーパス（docs_tot、docs_P、docs_M）と3つの文書の用語行列（dtm_tot、dtm_P、dtm_M）を持っています。

ソリューション：

1）異なった政治文書と数学のものを着色XY上のドキュメントの合計を表します。このようにして、それらがxyの自然クラスターを表しているかどうかを確認できます。 2）その差異についてネットワーク分析を行う。 dtm_Pがdtm_tot文書（100）のサブセットのみ（70）を持っていることを知って、例えば、dtm_Pとdtm_totをサブトラックするための概念方法はありますか？

出典

2016-04-01 Andrea Ianni ௫

これはcomparison.cloud()を使用すると思われるようです。ここwordcloudパッケージのヘルプページからの例です：

library(tm) 
library(wordcloud) 
data(SOTU) 
corp <- SOTU 
corp <- tm_map(corp, content_transformer(tolower)) 
corp <- tm_map(corp, removeNumbers) 
corp <- tm_map(corp, function(x)removeWords(x,stopwords())) 
corp <- tm_map(corp, removePunctuation) 
term.matrix <- TermDocumentMatrix(corp) 
term.matrix <- as.matrix(term.matrix) 
colnames(term.matrix) <- c("SOTU 2010","SOTU 2011") 
comparison.cloud(term.matrix,max.words=40,random.order=FALSE)

これはまた、図に示すように、二つ以上のグループのために働く、例えば、here。

これが役に立ちます。

出典

2016-04-01 07:07:24 RHertel

これはまさに私が探していたものではありませんが、それでも興味深い解決策です！ –

文書用語行列の「相違点」

答えて

関連する問題