0
すべてのハッシュタグをマイニングしてTwitterデータを分析しようとしています。私はすべてのハッシュタグをコーパスに入れ、このコーパスを単語のリストにマッピングしたいと思います。この問題をどうやって管理できるか考えていますか? は、ここに私のデータのスナップはハッシュタグ(テキストマイニング)のコーパスを構築する方法
ここで私が使用されるが、私はここでスパース
step1 <- strsplit(newFile$Hashtag, "#")
step2 <- lapply(step1, tail, -1)
result <- lapply(step2, function(x){
sapply(strsplit(x, " "), head, 1)
})
result2<-do.call(c, unlist(result, recursive=FALSE))
myCorpus <- tm::Corpus(VectorSource(result2)) # create a corpus
の100%私のDTMでの問題は、私の情報である持っているコードがあるさコーパス
myCorpus
<<SimpleCorpus>>
Metadata: corpus specific: 1, document level (indexed): 0
Content: documents: 12635
そして、私のDTM
<<DocumentTermMatrix (documents: 12635, terms: 6280)>>
Non-/sparse entries: 12285/79335515
Sparsity : 100%
Maximal term length: 36
Weighting : term frequency (tf)
はSOへようこそ。画像は、画像処理上のQでない限り、コードまたはデータではありません。あなたは疑問を作るときに指導を受けました。私たちは、あなたがどのようにツイッターで検索したのかわかりません。したがって、クエリでは、ハッシュタグがスパースである可能性があります。また、ハッシュタグの「解析」は[それより複雑です](https://stackoverflow.com/a/38789142/1457051) – hrbrmstr