私は32ビットの制限のために3Gbしかアクセスできない4GbのRAMを備えた32ビットオペレーティングシステムでWindows 7を使用しています。私はそれ以外のものをすべてシャットダウンし、私は約1Gbをキャッシュし、1Gbを使用可能にしていることがわかります。corpusSourceオブジェクトからコーパスを作成していないquanteda
quantedaの使用 - 私は、157MbのcorpusSourceオブジェクトを正常に作成するtextfile()コマンドを使用してtwitter.txtファイルを読んでいます。私はcorpus()コマンドを使って "corpus"に変換するために次のステップを踏むと、Rはそれを爆破し、4つの要素すべてに0の.....を含む非常に小さな空のファイルを作成します。コードと出力は次のようになります:
twitterfile <- "./final/en_US/en_US.twitter.txt"
precorp <- textfile(twitterfile)
corp <- corpus(twitterprecorp)
summary(corp)
Corpus consisting of 1 document.
Text Types Tokens Sentences
en_US.twitter.txt 0 0 0
Source: C:/R_Data/Capstone/* on x86 by xxxxx
Created: Thu Aug 18 06:32:01 2016
Notes:
Warning message:
In nsentence.character(object, ...) :
nsentence() does not correctly count sentences in all lower-cased text
...これがなぜ起こっているのかについての洞察はありますか?
あなたは 'precorp'の代わりに' twitterprecorp'を使用します – HubertL
@HubertLはあなたが確認する必要のある明らかな問題点を指しています。また、あなたが意図した単一の文書を持っていますか?または 'en_US.twitter.txt'に複数の"文書 "が複数のツイートの形で含まれていますか? –
皆さんありがとうございます。私は以下のコードを次のように更新して、コードを次のように更新して同じ結果を得ました: –