私はコーパスにおおよそ75MBのデータを持っています。次のコマンドを使用しようとしていますコーポスのストップワードとトローラ機能を削除R
tm_map(doc.corpus, removeWords, stopwords("english"))
tm_map(doc.corpus, tolower)
この2つの機能だけでは、少なくとも40分は実行されています。私はtdm
行列を私のモデルに使用しているので、プロセスのスピードアップを模索しています。
私は非常に頻繁にgc()
とmemory.limit(10000000)
のようなコマンドを試してみましたが、私は私の処理速度を高速化することはできませんよ。
私は4GB
RAMのシステムを持ち、入力データを読み込むためにローカルデータベースを実行しています。
スピードアップのためのご提案をお待ちしております。
を試してみてください?テキストを20MBの塊に分割し、別のコアで実行してください。ストップワードを削除するのは辞書のタスクとコンテキストフリーなので、うまくいくと思います。また、Rはこれらの処理には非常に遅いので、速度が重要であれば、Cのように速く書き換えることを検討してください。 – FisherDisinformation
@ArtificialBreeze Rで並列化できますか?タイムラグを減らすことを見て、Rと一緒に働くことは快適です! –
私は通常、1) 'parallel'パッケージを使います。これは' apply'などの独自の類義語を持っています。あるいは2) 'compiler'を使ってインラインCまたはC++でコードの一部をコード化します。 'インライン'パッケージ私はあなたが 'parallel'パッケージを見てみるべきだと思います。 – FisherDisinformation