100
の文書があるとします。70
は政治、30
は数学(奇妙な組み合わせ、私はそれを知っています)です。文書用語行列の「相違点」
- 私は(ドキュメントをコーパスを作る:私の目標は、私は、文書のセット全体を考えるとき、私はこれが好きですかなど、SOM、ネットワーク分析、多次元尺度分析のようなXY throught方法でそれらを表現するためにあります)を100要素とする。
- 私は文書用語行列(dtm)を作成します。
- from dtm私は、ドキュメントを構成する用語やドキュメント自体について(私が表現したいものに従って)距離の行列(dist)を作成します。
明らかに私は2つのグラフィックを別々に作ることができますが、私は別のことをしたいと思います。 は、私は3つのコーパス(docs_tot、docs_P、docs_M)と3つの文書の用語行列(dtm_tot、dtm_P、dtm_M)を持っています。
ソリューション:
1)異なった政治文書と数学のものを着色XY上のドキュメントの合計を表します。このようにして、それらがxyの自然クラスターを表しているかどうかを確認できます。 2)その差異についてネットワーク分析を行う。 dtm_Pがdtm_tot文書(100)のサブセットのみ(70)を持っていることを知って、例えば、dtm_Pとdtm_totをサブトラックするための概念方法はありますか?
これはまさに私が探していたものではありませんが、それでも興味深い解決策です! –