tm

    0

    1答えて

    私は1つのVCorpusを形成するように、私が一緒に追加を反復しようとしているn個のドキュメントのリストを持っています。通常、c()演算子を使用し、2つのVCorpusを結合してより大きなものを作成することができます。しかし、私が最初にリストを初期化すると、以下のようにしてコーパスが文字リストにキャストされます。しかし、最初に初期化しないと、エラーが発生します。 clean_corpus <- c

    0

    1答えて

    Rのtmパッケージにちょうど知り合いました。フォルダに別々の.txtファイルがある場合、これらをRの中のコーパスファイル に変換する方法を理解していますが、私の特定のケースでは、すべてのテキストデータが1つのファイルにあります。そのファイル内の各センテンスは1つのドキュメントを表し、先に フレーズIDとセンテンスIDを持っています。 PhraseId SentenceId 156061 8545ア

    0

    1答えて

    私の仕事はコーパスの文書を余弦類似度で比較することです。私はtmパッケージを使用し、TermDocumentMatrix(td-idf形式)tdmを取得します。次のタスクは、here d <- dist(tdm, method="cosine") または cosine_dist_mat <- 1 - crossprod_simple_triplet_matrix(tdm)/(sqrt(col_

    0

    1答えて

    公開レビューデータから相関トピックモデルを作成していて、かなり奇妙なエラーが発生しています。 CTMで用語(ctm1,5)を呼び出すと、各トピックの上位5つの用語ではなく、ドキュメントの名前が返されます。私が走った、より詳細には 、返さ library(topicmodels) library(data.table) library(tm) a <-Corpus(DirSource("~/

    0

    1答えて

    私は、tmパッケージのZipf_plot関数を使って、2つの異なるドキュメント用語行列を比較しようとしています。私はR専門家ではありません。 両方に適合する方法があれば教えてくださいこの機能は?私が知っている Zipf_plot(x, type = "l", ...) 、1つのウィンドウでそれらの両方(またはそれ以上)を取得する可能性があります: par(mfrow=c()) が、私は1つ

    -1

    1答えて

    Rでステミングした後に単語を完成させるには? x <- c("completed","complete","completion","teach","taught") tm <- Corpus(VectorSource(x)) tm <- tm_map(tm, stemDocument) inspect(tm) 実際のテキストコーパスとしての説明のための例ははるかに大きくなります。 私は

    1

    2答えて

    文書内の特定の用語に対する単語の近接度と、平均近接度(ワード単位)を計算する方法を理解しようとしています。私はそれに似た質問があることを知っていますが、私に必要な答えを与えたり、助けてくれと指摘するものはありません。にどちらかの側の言葉は、左へ15((私は交換可能で、この数をしたいと思います)私は15内に現れるものを言葉見ることができるようにしたい song <- "Far over the mi

    0

    2答えて

    "tm"パッケージをインストールしようとしましたが、エラーが発生しました(下記参照)。このエラーから私は何がうまくいかないのか分かりません。パッケージRcppがインストールされています。 R 3.4.0での作業、Xubuntu 64. パッケージtmはどのようにインストールできますか? * installing *source* package ‘tm’ ... ** package ‘tm’

    3

    2答えて

    tmとwordcloudを使用して、Rで基本的なテキストマイニングを実行しています。処理されるテキストには、asfdg、aawptkrのような無意味な単語が多数含まれています。 私が見つけた最も近い解決策は、library(qdapDictionaries)を使用し、単語の妥当性をチェックするカスタム関数を構築することです。 library(qdapDictionaries) is.word <