Twitterのデータを使用してテキストマイニングの練習をしています。オリジナルのデータフレームには1280行があります。避けるために:LDAでLDAトピックモデルの問題
エラー(dtm_cea、K = 8): 各行入力行列のは、私が疎に排除少なくとも一つの非ゼロエントリ
を含有する必要がありますエントリーなしで任意の行をマトリックス:
rowTotals <- apply(dtm , 1, sum)
dtm.new <- dtm[rowTotals_cea> 0, ]
lda <- LDA(dtm.new, k = 8)
topic <- topics(lda, 1)
は、結果的に私のdtm.newは数行を失いました。実際には行数は1273に減少します。
実際、グラフを作成するには、元のデータフレーム(1280行)から別の列をトピック(1273行)で取得する必要があります。どのようにして元のデータでDTMの変更によりどの行を削除すべきかを特定する方法はありますか?
DTMの1280 - > 1273に使用していた元のデータフレームに同じロジックを使用できませんでしたか? – bouncyball