テキストを使用しているnグラムの頻度は、rを使用して

-1

私はテキストを読むためにRを使用しています。それはリストに入れている通路は100文で構成され、その後、リストは次のようである：テキストを使用しているnグラムの頻度は、rを使用して

[[1]] 

[1] "WigWagCo: For #TBT here's a video of Travis McCollum (Co-Founder and COO of WigWag) at #SXSW2016 

[[2]] 

[1] "chrisreedfilm: RT @hammertonail: #SXSW2016 doc THE SEER: A PORTRAIT OF WENDELL BERRY gets reviewed by @chrisreedfilm 

[[3]] 

[1] "iamscottrandell: RT @therevue: Take a jaunt down #MemoriesofSXSW &amp; read the stories of @JRNelsonMusic @thegillsmusic &amp; @TheBlancosMusic 
... 
... 

[[99]] 

[1] "SunPowerTalent: SunPower #Clerical #Job: Supply Chain Intern (#Austin, TX) 

[[100]] 

[1] "SunPowerTalent: #Finance #Job alert: General Ledger Accountant | SunPower

リスト内のすべてのオブジェクトは、同じテキストから「文」です。このテキストのすべての3グラムの頻度を数え、どの3センチグラムから3グラムを知ることができますか？

ありがとうございました。

出典

2016-04-12 Paul

textcat（https://CRAN.R-project.org/package=textcat）のRパッケージを使用することができます。 100文のリストは、あなたは、単に行うx呼び出された場合：

library("textcat") 
n3gram <- textcat_profile_db(x, n = 3)

これは、周波数によって命じ3グラムを含む100個の要素（元の文章に相当）の一覧です。詳細および例については、?textcat_profile_dbを参照してください。

出典

2016-04-12 10:49:31

テキストを使用しているnグラムの頻度は、rを使用して

答えて

関連する問題