tm

    0

    1答えて

    私はテキスト解析を実行するための簡単なコードを持っています。 DTMを作成する前に、私はstemCompletionを適用しています。しかし、これの出力は、私が間違っているかどうか、あるいはそれが動作する唯一の方法であるかどうか、私が理解していないものです。 私はRMY助けのこのリンクを参照している:私はここを参照してくださいtext-mining-with-the-tm-package-word

    0

    1答えて

    5k、50k、7.5k、75k、10K、100Kなどの単語を持つコーパスがあります。 したがって、tmパッケージを使用してTDMを作成すると、10kや100kなどの用語が個別に抽出されます。ただし、5kと7.5kは別々の用語として抽出されません。 句読点の修正後、 "7.5k"は "75k"の項に該当するかもしれませんが、 "5k"では何が起こっているのか分かります。なぜそれは用語として抽出されな

    0

    1答えて

    rパッケージtmでVCorpus()関数を使用しています。私はこれは num Author1 Author2 1 1 Text mining is a great time. R is a great language 2 2 Text analysis provides insights R has many uses 3 3 qdap and tm are us

    1

    2答えて

    私は、「kind」と「Kindertoekomst」を含むコーパス内のすべての単語を置き換えたいと思います。私は正常にそれをすることができます: Woorden<-c("kinderen", "kleinkind") Woorden[grepl("kind", Woorden)]<-"Kindertoekomst" しかし、私はコーパス内でそれをしたいと思います。 私は Kind<-grep

    2

    1答えて

    この関数は、rテキストマイニングパッケージ(tm)を使用してツイートのURLを削除するスクリプトで使用しています。私の驚いたことに、クリーンアップ後に、いくつかの残った "http"単語とURL自体からのフラグメント(t.coなど)があります。一部のURLは完全に消去されているようですが、他の部分は単にコンポーネントに分解されているようです。何が原因だろうか?注:私はを取った。 t.co URLに

    0

    1答えて

    私は、ツイート、作成日、ツイートID、お気に入り、リッチカウントを含むデータフレームを持っています。私はコーパスを作成したいと思います。私はまた、ランダムな文書の001などではなく、ツイートIDで文書を識別したいと思っています。私は以下のデータで始まる ...私は戻ってコーパスを変換するときに私は、しかし myReader <- readTabular(mapping=list(content="

    2

    1答えて

    私の友人と私は、Rで機械学習を使って感情分析を実行できるように、収集したつぶやきをdtmに変換しようとしています。タスクはRで実行する必要があります。 Rがツールとして使用される必要がある私たちの大学での試験のために。 大きなデータセットのコーディングを開始する前に、コードが機能しているかどうかをテストするために、最初に小さいサンプルを収集しました。私たちの問題は、dtmからカスタム単語を削除する