2017-06-14 5 views
0

私は文書の用語頻度を見たいと思います。私の文書はペルシア語のテキストを含んでいます。Rのペルシア語テキストにTermDocumentMatrixを使用するにはどうすればよいですか?

keycorpus <- Corpus(DirSource("E:\\Sample\\farsi texts")) 
tm.matrix <- TermDocumentMatrix(keycorpus) 
View(as.matrix(tm.matrix)) 

このコードは英語のテキストでは問題ありませんが、残念ながらペルシャ語のテキストでは機能しません。これどうやってするの?

+0

エラーを追加して、ペルシア語のテキストの一部に気にしない場合は追加してください。 – amonk

+0

あなたのファルシテストのエンコードは何ですか? –

+0

エンコーディングはUTF-8です。エラーはありませんが、この場合のtermdocumentmatrixの出力には数字と句読点だけが含まれており、ペルシャ語は無視されます。 –

答えて

0

は、あなたがして 1.TXTという名前のテキストファイルを持っていることとします

Sys.setlocale(locale = "Persian",category = "LC_ALL") 
setwd("E:\\Sample\\farsi_texts") 
text<-readLines("1.txt",encoding = "windows-1256") 
keycorpus <- Corpus(VectorSource(text)) 
tm.matrix <- TermDocumentMatrix(keycorpus) 
View(as.matrix(tm.matrix)) 

あなたが集計するこのコードを使用することができます それが各行の各単語の繰り返しを示しています

tm.iteration<-as.data.frame(apply(tm.matrix,1 ,sum)) View(as.matrix(tm.iteration))

関連する問題