1859個のドキュメント(行)と25722(列)を含むDocumentTermMatrixを作成しました。この行列をさらに計算するために、それを規則的な行列に変換する必要があります。 as.matrix()
コマンドを使用します。ただし、次のエラーを返します。サイズ364.8 MBのベクトルを割り当てることができません。tmパッケージエラー "ベクトルが大きすぎるため、DocumentTermMatrixを通常の行列に変換できません"
> corp
A corpus with 1859 text documents
> mat<-DocumentTermMatrix(corp)
> dim(mat)
[1] 1859 25722
> is(mat)
[1] "DocumentTermMatrix"
> mat2<-as.matrix(mat)
Fehler: kann Vektor der Größe 364.8 MB nicht allozieren # cannot allocate vector of size 364.8 MB
> object.size(mat)
5502000 bytes
何らかの理由により、オブジェクトのサイズが規則的なマトリックスに変換されると、劇的に増加するように見えます。どうすればこれを避けることができますか?
また、DocumentTermMatrixで通常のマトリックス操作を実行する別の方法がありますか?
お返事ありがとうございます。残念ながら、SparseMは、各行ペア間のJaccard類似度を計算する必要があるため、役立たないようには思えません。これは、ビーガンパッケージのvegdist()関数を使用して行います。これは疎な行列では機能しません。 – Christian