2016-04-12 13 views
-1

私はテキストを読むためにRを使用しています。それはリストに入れている通路は100文で構成され、その後、リストは次のようである:テキストを使用しているnグラムの頻度は、rを使用して

[[1]] 

[1] "WigWagCo: For #TBT here's a video of Travis McCollum (Co-Founder and COO of WigWag) at #SXSW2016 

[[2]] 

[1] "chrisreedfilm: RT @hammertonail: #SXSW2016 doc THE SEER: A PORTRAIT OF WENDELL BERRY gets reviewed by @chrisreedfilm 

[[3]] 

[1] "iamscottrandell: RT @therevue: Take a jaunt down #MemoriesofSXSW & read the stories of @JRNelsonMusic @thegillsmusic & @TheBlancosMusic 
... 
... 

[[99]] 

[1] "SunPowerTalent: SunPower #Clerical #Job: Supply Chain Intern (#Austin, TX) 

[[100]] 

[1] "SunPowerTalent: #Finance #Job alert: General Ledger Accountant | SunPower 

リスト内のすべてのオブジェクトは、同じテキストから「文」です。 このテキストのすべての3グラムの頻度を数え、どの3センチグラムから3グラムを知ることができますか?

ありがとうございました。

答えて

0

textcathttps://CRAN.R-project.org/package=textcat)のRパッケージを使用することができます。 100文のリストは、あなたは、単に行うx呼び出された場合:

library("textcat") 
n3gram <- textcat_profile_db(x, n = 3) 

これは、周波数によって命じ3グラムを含む100個の要素(元の文章に相当)の一覧です。詳細および例については、?textcat_profile_dbを参照してください。

関連する問題