corpusSourceオブジェクトからコーパスを作成していないquanteda

私は32ビットの制限のために3Gbしかアクセスできない4GbのRAMを備えた32ビットオペレーティングシステムでWindows 7を使用しています。私はそれ以外のものをすべてシャットダウンし、私は約1Gbをキャッシュし、1Gbを使用可能にしていることがわかります。corpusSourceオブジェクトからコーパスを作成していないquanteda

quantedaの使用 - 私は、157MbのcorpusSourceオブジェクトを正常に作成するtextfile（）コマンドを使用してtwitter.txtファイルを読んでいます。私はcorpus（）コマンドを使って "corpus"に変換するために次のステップを踏むと、Rはそれを爆破し、4つの要素すべてに0の.....を含む非常に小さな空のファイルを作成します。コードと出力は次のようになります：

twitterfile <- "./final/en_US/en_US.twitter.txt" 

precorp <- textfile(twitterfile) 
corp <- corpus(twitterprecorp) 
summary(corp) 

Corpus consisting of 1 document. 

       Text Types Tokens Sentences 
en_US.twitter.txt  0  0   0 

Source: C:/R_Data/Capstone/* on x86 by xxxxx 
Created: Thu Aug 18 06:32:01 2016 
Notes: 

Warning message: 
In nsentence.character(object, ...) : 
    nsentence() does not correctly count sentences in all lower-cased text

...これがなぜ起こっているのかについての洞察はありますか？

出典

2016-08-18 B. McCracken

あなたは 'precorp'の代わりに' twitterprecorp'を使用します – HubertL

@HubertLはあなたが確認する必要のある明らかな問題点を指しています。また、あなたが意図した単一の文書を持っていますか？または 'en_US.twitter.txt'に複数の"文書 "が複数のツイートの形で含まれていますか？ –

皆さんありがとうございます。私は以下のコードを次のように更新して、コードを次のように更新して同じ結果を得ました： –

textfile()

は、ファイル全体に1つの要素を含む文字ベクトルを与えています。これはあなたのファイル内の各行の要素を持つ文字ベクトルを与える

precorp <- readlines(twitterfile)

：あなたは、おそらくのように

readlines()

を使用します。 corpus（）は、コーパスを作成するときに、ベクトルの各要素をドキュメントとして扱います。

出典

2016-10-19 02:29:08

corpusSourceオブジェクトからコーパスを作成していないquanteda

答えて

関連する問題