2016-04-01 11 views
2

100の文書があるとします。70は政治、30は数学(奇妙な組み合わせ、私はそれを知っています)です。文書用語行列の「相違点」

  • 私は(ドキュメントをコーパスを作る:私の目標は、私は、文書のセット全体を考えるとき、私はこれが好きですかなど、SOM、ネットワーク分析、多次元尺度分析のようなXY throught方法でそれらを表現するためにあります)を100要素とする。
  • 私は文書用語行列(dtm)を作成します。
  • from dtm私は、ドキュメントを構成する用語やドキュメント自体について(私が表現したいものに従って)距離の行列(dist)を作成します。

明らかに私は2つのグラフィックを別々に作ることができますが、私は別のことをしたいと思います。 は、私は3つのコーパス(docs_totdocs_Pdocs_M)と3つの文書の用語行列(dtm_totdtm_Pdtm_M)を持っています。

ソリューション:

1)異なった政治文書と数学のものを着色XY上のドキュメントの合計を表します。このようにして、それらがxyの自然クラスターを表しているかどうかを確認できます。 2)その差異についてネットワーク分析を行う。 dtm_Pdtm_tot文書(100)のサブセットのみ(70)を持っていることを知って、例えば、dtm_Pdtm_totをサブトラックするための概念方法はありますか?

答えて

2

これはcomparison.cloud()を使用すると思われるようです。ここwordcloudパッケージのヘルプページからの例です:

library(tm) 
library(wordcloud) 
data(SOTU) 
corp <- SOTU 
corp <- tm_map(corp, content_transformer(tolower)) 
corp <- tm_map(corp, removeNumbers) 
corp <- tm_map(corp, function(x)removeWords(x,stopwords())) 
corp <- tm_map(corp, removePunctuation) 
term.matrix <- TermDocumentMatrix(corp) 
term.matrix <- as.matrix(term.matrix) 
colnames(term.matrix) <- c("SOTU 2010","SOTU 2011") 
comparison.cloud(term.matrix,max.words=40,random.order=FALSE) 

enter image description here

これはまた、図に示すように、二つ以上のグループのために働く、例えば、here

これが役に立ちます。

+0

これはまさに私が探していたものではありませんが、それでも興味深い解決策です! –