tm - 優秀な図書館

tm

0熱

1答えて

私は1つのVCorpusを形成するように、私が一緒に追加を反復しようとしているn個のドキュメントのリストを持っています。通常、c()演算子を使用し、2つのVCorpusを結合してより大きなものを作成することができます。しかし、私が最初にリストを初期化すると、以下のようにしてコーパスが文字リストにキャストされます。しかし、最初に初期化しないと、エラーが発生します。 clean_corpus <- c

0熱

1答えて

テキストデータを含むファイルをR tmのコーパス形式に変換する方法

Rのtmパッケージにちょうど知り合いました。フォルダに別々の.txtファイルがある場合、これらをRの中のコーパスファイルに変換する方法を理解していますが、私の特定のケースでは、すべてのテキストデータが1つのファイルにあります。そのファイル内の各センテンスは1つのドキュメントを表し、先にフレーズIDとセンテンスIDを持っています。 PhraseId SentenceId 156061 8545ア

0熱

1答えて

tmのTermDocumentMatrixの2つの文書間の余弦類似度を計算する

私の仕事はコーパスの文書を余弦類似度で比較することです。私はtmパッケージを使用し、TermDocumentMatrix（td-idf形式）tdmを取得します。次のタスクは、here d <- dist(tdm, method="cosine") または cosine_dist_mat <- 1 - crossprod_simple_triplet_matrix(tdm)/(sqrt(col_

0熱

1答えて

トピックモデリングR

公開レビューデータから相関トピックモデルを作成していて、かなり奇妙なエラーが発生しています。 CTMで用語（ctm1,5）を呼び出すと、各トピックの上位5つの用語ではなく、ドキュメントの名前が返されます。私が走った、より詳細には、返さ library(topicmodels) library(data.table) library(tm) a <-Corpus(DirSource("~/

0熱

1答えて

Zipf_plot（）：2つのオブジェクトを1つのグラフで比較する方法は？

私は、tmパッケージのZipf_plot関数を使って、2つの異なるドキュメント用語行列を比較しようとしています。私はR専門家ではありません。両方に適合する方法があれば教えてくださいこの機能は？私が知っている Zipf_plot(x, type = "l", ...) 、1つのウィンドウでそれらの両方（またはそれ以上）を取得する可能性があります： par(mfrow=c()) が、私は1つ

-1熱

1答えて

rテキスト解析の幹部補完

Rでステミングした後に単語を完成させるには？ x <- c("completed","complete","completion","teach","taught") tm <- Corpus(VectorSource(x)) tm <- tm_map(tm, stemDocument) inspect(tm) 実際のテキストコーパスとしての説明のための例ははるかに大きくなります。私は

1熱

2答えて

文書内の特定の用語に対する単語の近接度を計算する方法

文書内の特定の用語に対する単語の近接度と、平均近接度（ワード単位）を計算する方法を理解しようとしています。私はそれに似た質問があることを知っていますが、私に必要な答えを与えたり、助けてくれと指摘するものはありません。にどちらかの側の言葉は、左へ15（（私は交換可能で、この数をしたいと思います）私は15内に現れるものを言葉見ることができるようにしたい song <- "Far over the mi

0熱

2答えて

インストールパッケージ "tm"が失敗しました

"tm"パッケージをインストールしようとしましたが、エラーが発生しました（下記参照）。このエラーから私は何がうまくいかないのか分かりません。パッケージRcppがインストールされています。 R 3.4.0での作業、Xubuntu 64. パッケージtmはどのようにインストールできますか？ * installing *source* package ‘tm’ ... ** package ‘tm’

3熱

2答えて

コーパスから意味のない単語を削除するR

tmとwordcloudを使用して、Rで基本的なテキストマイニングを実行しています。処理されるテキストには、asfdg、aawptkrのような無意味な単語が多数含まれています。私が見つけた最も近い解決策は、library(qdapDictionaries)を使用し、単語の妥当性をチェックするカスタム関数を構築することです。 library(qdapDictionaries) is.word <