2016-11-14 30 views
0

私は638MBのRTCコーパスを3部用意しています(ソースドキュメント)。私は100ワードの単語の雲を取得しようとしたとき、それは12時間(まだ実行中)かかりました。これをより速くする方法はありますか?R Wordcloudが12時間以上かかる場合は、これをスピードアップすることができます

これは私のコマンドです.100ワードが必要です。

wordcloud(cleanFullCorpus, max.words = 100, random.order = FALSE, colors=brewer.pal(10,'Spectral')) 

私は、ソースドキュメントのサブセットを避けることを望んでいましたが、必要に応じてできます。

トップ100ワードを抽出して単語クラウドを作成することは可能ですか?

これをもっと速くするための他のアイデアは高く評価されます。

ゲイリー PSそれは私のマシンは32ラムのギグ、10を使用し、約18%で

+1

大量の再現性のあるサンプルデータセットを作成すると、より良い回答が得られます。 –

答えて

0

を実行する8コアのAMDのチップを持っていたのに役立ちます場合は、wordcloudにコーパスを渡しているようにあなただけのはずそれは、見えます固有の項とその頻度のベクトルを渡す必要があります。

tdm<-TermDocumentMatrix(cleanFullCorpus) 
termFreqs<-row_sums(tdm) 

wordcloud(names(termFreqs), termFreqs, max.words = 100, random.order = FALSE, colors=brewer.pal(10,'Spectral')) 
+0

ありがとうございます。私はそれほど強力ではないコンピュータでこれを試したが、判決はまだ出ている。 (まだ稼働しています...) – user3005033

+0

TDMを作成するのは、計算コストがかかりません。もしあなたが 'worcloud'コマンドにあなたを加えたコードを提供できれば、より多くの助けを得ることができます。 – emilliman5

関連する問題