2012-11-13 5 views
7

を無視して2次DTM-S:私はこれを実装すると、私は二つの等しいDTM-S見ると、私はdtmImprovedを開くと、そこにあるR DocumentTermMatrix制御リストは、静かに私が持っている未知のパラメータ

dtm <- DocumentTermMatrix(t) 

dtmImproved <- DocumentTermMatrix(t, 
       control=list(minWordLength = 4, minDocFreq=5)) 

3つの記号のある単語。 minWordLengthパラメータが機能しないのはなぜですか?ありがとうございました!

> dtm 
A document-term matrix (591 documents, 10533 terms) 

Non-/sparse entries: 43058/6181945 
Sparsity   : 99% 
Maximal term length: 135 
Weighting   : term frequency (tf) 
> dtmImproved 
A document-term matrix (591 documents, 10533 terms) 

Non-/sparse entries: 43058/6181945 
Sparsity   : 99% 
Maximal term length: 135 
Weighting   : term frequency (tf) 
+0

の支援を期待「リスト(...)」何も、 'tm'のバージョンを使用している何の警告やSTH他 –

答えて

23
dtmImproved <- DocumentTermMatrix(t, control=list(wordLengths=c(4, 15), 
            bounds = list(global = c(5,Inf)))) 

これは、問題を解決します!適切な文書の欠如は本当に(私をMADS:

+1

を起こりません。 'TermDocumentMatrix'のヘルプはグローバルオプションを設定し、ローカルオプションへのリンクを与えます。 'minWordLength'は決してオプションとしてリストされませんが、' wordLengths'は詳細に記述されています。ドキュメントはよく書かれており、従うのは簡単です。 – mnel

+0

うん、助けてくれたのは、残念なことにグーグルでは見つからなかったが、それはもっと自分のようなものだよ) –

+1

@mnel:認識できないパラメータは黙って無視する。 (control = list(bounds = list(global = c(0、Inf)))) 'の代わりに'(control = list(bounds = list(c(0、Inf)))) 'これは大きな苦痛です。不足しているラベルを「グローバル」に見分けましたか?私はしませんでした... – smci

0

可能な場合は、ソースコードを読むことは常に良い考えですGitHubの@ wordcloud機能のソースコードを読んで、ここではそれが言うことである:。
#著者束縛MAX(FREQ)< min.freqを返し、0

だからあなたDocumentTermMatrix -
.....
(min.freq> MAX(FREQ))であれば
min.freq <をianfellows:あなたが設定した条件のmin.freq以上のものに設定されています。

私はに何かを追加するとき、これは、また MJJ

関連する問題