tm - 優秀な図書館

tm

0熱

1答えて

私はテキスト解析を実行するための簡単なコードを持っています。 DTMを作成する前に、私はstemCompletionを適用しています。しかし、これの出力は、私が間違っているかどうか、あるいはそれが動作する唯一の方法であるかどうか、私が理解していないものです。私はRMY助けのこのリンクを参照している：私はここを参照してくださいtext-mining-with-the-tm-package-word

0熱

1答えて

tmパッケージを使用して強制的に単語を作成する

5k、50k、7.5k、75k、10K、100Kなどの単語を持つコーパスがあります。したがって、tmパッケージを使用してTDMを作成すると、10kや100kなどの用語が個別に抽出されます。ただし、5kと7.5kは別々の用語として抽出されません。句読点の修正後、 "7.5k"は "75k"の項に該当するかもしれませんが、 "5k"では何が起こっているのか分かります。なぜそれは用語として抽出されな

0熱

1答えて

VCorpus（）関数を使用してもコンテンツを失う

rパッケージtmでVCorpus()関数を使用しています。私はこれは num Author1 Author2 1 1 Text mining is a great time. R is a great language 2 2 Text analysis provides insights R has many uses 3 3 qdap and tm are us

1熱

2答えて

R：データマイニング。部分文字列を含む単語の置換

私は、「kind」と「Kindertoekomst」を含むコーパス内のすべての単語を置き換えたいと思います。私は正常にそれをすることができます： Woorden<-c("kinderen", "kleinkind") Woorden[grepl("kind", Woorden)]<-"Kindertoekomst" しかし、私はコーパス内でそれをしたいと思います。私は Kind<-grep

2熱

1答えて

URLパッケージを削除するTMパッケージのgsub関数は、文字列全体を削除しません。

この関数は、rテキストマイニングパッケージ（tm）を使用してツイートのURLを削除するスクリプトで使用しています。私の驚いたことに、クリーンアップ後に、いくつかの残った "http"単語とURL自体からのフラグメント（t.coなど）があります。一部のURLは完全に消去されているようですが、他の部分は単にコンポーネントに分解されているようです。何が原因だろうか？注：私はを取った。 t.co URLに

0熱

1答えて

データフレームからテキスト（ツイート）属性を含むtmコーパスを作成します

私は、ツイート、作成日、ツイートID、お気に入り、リッチカウントを含むデータフレームを持っています。私はコーパスを作成したいと思います。私はまた、ランダムな文書の001などではなく、ツイートIDで文書を識別したいと思っています。私は以下のデータで始まる ...私は戻ってコーパスを変換するときに私は、しかし myReader <- readTabular(mapping=list(content="

2熱

1答えて

DocumentTermMatrixから単語を削除する

私の友人と私は、Rで機械学習を使って感情分析を実行できるように、収集したつぶやきをdtmに変換しようとしています。タスクはRで実行する必要があります。 Rがツールとして使用される必要がある私たちの大学での試験のために。大きなデータセットのコーディングを開始する前に、コードが機能しているかどうかをテストするために、最初に小さいサンプルを収集しました。私たちの問題は、dtmからカスタム単語を削除する