tmオブジェクトからkoRpusオブジェクトへの移動、またはその逆

tmオブジェクトからkoRpusオブジェクトへの移動に問題があります。コーパスをtmツールで正規化し、結果をkoRpusで体系化し、tmに戻って結果を分類する必要があります。これを行うには、tmオブジェクトをRデータフレームに変換してから、Excelファイルに変換してからtxtファイルに変換し、最後にkoRpusオブジェクトに変換する必要があります。これはコードです：tmオブジェクトからkoRpusオブジェクトへの移動、またはその逆

#from VCORPUS to DATAFRAME 
dataframeD610P<-data.frame(text=unlist(sapply(Corpus.TotPOS, `[`, "content")), stringsAsFactors=F) 

#from DATAFRAME to XLSX 
#library(xlsx) 
write.xlsx(dataframeD610P$text, ".\\mycorpus.xlsx") 

#open with excel 
#save in csv (UTF-8) 

#import in KORPUS and lemmatization with KORPUS/TREETAGGER 

tagged.results <- treetag(".\\mycorpus.csv", treetagger="manual", lang="it", sentc.end = c(".", "!", "?", ";", ":"), 
          TT.options=list(path="C:/TreeTagger", preset="it-utf8", no.unknown=T))

その後、私は戻って、TMに取得するために後方にすべてを行う必要があります。これはコードです：

#from KORPUS to TXT 
write.table([email protected]$lemma, ".\\mycorpusLEMMATIZED.txt") 

#open with a text editor and formatting of the text 

#from TXT to R 
Lemma1.POS<- readLines(".\\mycorpusLEMMATIZEDfrasi.txt", encoding = "UTF-8") 

#from R object to DATAFRAME 
Lemma2.POS<-as.data.frame(Lemma1.POS, encoding = "UTF-8") 

#from DATAFRAME to CORPUS 
CorpusPOSlemmaFINAL = Corpus(VectorSource(Lemma2.POS$Lemma1.POS))

はRを離れることなく、これを行うにはよりエレガントな解決策はありますか？私は本当に助けやフィードバックに感謝します。

ところで、VCorpus内のどのドキュメントに特定のトークンが含まれているかを知っている人はいますか？私は通常、文書を識別するためにコーパスをデータフレームに変換します。 tmでこれを行う方法はありますか？

出典

2017-02-16 Giorjet

unDocUMeantItのおかげで、ここで答えが見つかる可能性があります。https://github.com/unDocUMeantIt/koRpus/issues/6

出典

2017-02-20 14:13:24 Giorjet

tmオブジェクトからkoRpusオブジェクトへの移動、またはその逆

答えて

関連する問題