Rのペルシア語テキストにTermDocumentMatrixを使用するにはどうすればよいですか？

私は文書の用語頻度を見たいと思います。私の文書はペルシア語のテキストを含んでいます。Rのペルシア語テキストにTermDocumentMatrixを使用するにはどうすればよいですか？

keycorpus <- Corpus(DirSource("E:\\Sample\\farsi texts")) 
tm.matrix <- TermDocumentMatrix(keycorpus) 
View(as.matrix(tm.matrix))

このコードは英語のテキストでは問題ありませんが、残念ながらペルシャ語のテキストでは機能しません。これどうやってするの？

出典

2017-06-14 M.Rabiei

エラーを追加して、ペルシア語のテキストの一部に気にしない場合は追加してください。 – amonk

あなたのファルシテストのエンコードは何ですか？ –

エンコーディングはUTF-8です。エラーはありませんが、この場合のtermdocumentmatrixの出力には数字と句読点だけが含まれており、ペルシャ語は無視されます。 –

は、あなたがして 1.TXTという名前のテキストファイルを持っていることとします

Sys.setlocale(locale = "Persian",category = "LC_ALL") 
setwd("E:\\Sample\\farsi_texts") 
text<-readLines("1.txt",encoding = "windows-1256") 
keycorpus <- Corpus(VectorSource(text)) 
tm.matrix <- TermDocumentMatrix(keycorpus) 
View(as.matrix(tm.matrix))

あなたが集計するこのコードを使用することができますそれが各行の各単語の繰り返しを示しています

tm.iteration<-as.data.frame(apply(tm.matrix,1 ,sum)) View(as.matrix(tm.iteration))

出典

2018-01-14 07:36:56

Rのペルシア語テキストにTermDocumentMatrixを使用するにはどうすればよいですか？

答えて

関連する問題