1
Rのテキストマイニングには、tm
というパッケージを使用してPDFドキュメントを読むことを試みていますが、私のPDFはドイツ語で書かれており、その特殊文字。 (列は、各PDFの周波数がどこにあるか)パッケージのあるtm(Rのテキストマイニング)
library(tm)
pathname <- "J:/branchwarren/docs/tm/"
raw_corpus <- VCorpus(DirSource(directory=path,encoding="UTF-8"), readerControl=list(reader=readPDF,language="de"))
tdm <- TermDocumentMatrix(raw_corpus)
tdm_mat <- as.data.frame(tdm)
例えば出力tdm_mat
あなたが気付いたよう
1 geschã¤ftsverlauf 9 9 1 3 0 0
2 gesellschaft 1 3 1 1 1 1
3 gesellschaft. 0 0 1 1 1 0
4 gesellschaftskapital 1 1 1 1 1 1
5 gestaltung 1 1 1 1 1 1
6 gesteigert 0 0 2 0 2 6
7 gesunden 0 1 0 1 1 1
8 gewinnreserve 1 1 1 1 1 1
9 gewinnverwendung) 1 1
は、最初の行の文字が正しく表示されないです。それはgeschäftsverlaufでなければなりません。
ご意見やご提案はありますか?事前に感謝します。
Rの 'utf-8'エンコード方法を使用する代わりに、' Sys.setlocale( "LC_CTYPE"、 "german") 'としてセッションを開始することができます。 –
@Nickil Maveli、申し訳ありませんが動作しません。あなたはあなたのレスポンスを少し詳しく説明できますか?ありがとう – richpiana