0
私は文書の用語頻度を見たいと思います。私の文書はペルシア語のテキストを含んでいます。Rのペルシア語テキストにTermDocumentMatrixを使用するにはどうすればよいですか?
keycorpus <- Corpus(DirSource("E:\\Sample\\farsi texts"))
tm.matrix <- TermDocumentMatrix(keycorpus)
View(as.matrix(tm.matrix))
このコードは英語のテキストでは問題ありませんが、残念ながらペルシャ語のテキストでは機能しません。これどうやってするの?
エラーを追加して、ペルシア語のテキストの一部に気にしない場合は追加してください。 – amonk
あなたのファルシテストのエンコードは何ですか? –
エンコーディングはUTF-8です。エラーはありませんが、この場合のtermdocumentmatrixの出力には数字と句読点だけが含まれており、ペルシャ語は無視されます。 –