tm - 優秀な図書館

tm

2熱

1答えて

これは初めてRにインストールしてtmパッケージをロードしようとしていますが、これまで失敗しています。ここに私のマシンの情報は次のとおりです。 > sessionInfo() R version 3.4.0 (2017-04-21) Platform: x86_64-w64-mingw32/x64 (64-bit) Running under: Windows >= 8 x64 (build

1熱

2答えて

行ごとに2つの文書用語行列をマージする

私は顧客サービスから得た顧客の問い合わせと回答をcsvファイルに保管しています。私は各質問の主題を特定し、後にこれに関する分類モデルを作成する必要があります。私は2つの文書用語行列（文書を整理した後）を作成しました.1つは質問用、もう1つは回答用です。私は、文書全体で約400回以上出現する言葉（約40kの質問と回答）を取るだけでサイズを縮小しました。これらの2つの行列を行でマージし、問題の共通の

0熱

1答えて

Rテキストマイニング：データフレームから文書用語行列を作成し、データフレームに変換し、元のデータフレームから列を保持します

tidytextパッケージを推奨するlawyeRのおかげです。私のサンプルデータでうまく機能しているようなパッケージに基づいたコードがいくつかあります。テキスト列の値が空白の場合でもうまく機能しません。（これが起こる時があり、それをフィルタリングするのではなく、空白を残しておくことは意味をなさないでしょう）.TVARの最初の観測を説明するためにブランクに設定しました。このコードはこの観察を落とし

0熱

1答えて

「TermDocumentMatrix」を使用できないのはなぜですか？

「TermDocumentMatrix」を使用できないのはなぜですか？複数の単語を単数形で統一するために次のコマンドを使用しましたが、エラーが発生します。 crudeCorp <- tm_map(crudeCorp, gsub, pattern = "smells", replacement = "smell") crudeCorp <- tm_map(crudeCorp, gsub, pat

0熱

1答えて

"TermDocumentMatrix"を使用する場合、 "文字"クラスのオブジェクトに適用される 'meta'の適用可能なメソッドはありません

このフレーズを使用するまでは、 "TermDocumentMatrix"は良好でした。 doc <- tm_map(doc, gsub, pattern = "buy", replacement = "bought") ただし、この句を使用すると、「TermDocumentMatrix」はエラーを生成します。 Error in UseMethod("meta", x) : no applic

0熱

2答えて

tmがダブルワードからストップワードを削除しないようにします。

文字のベクトルからストップワードを削除しようとしています。しかし、私が直面している問題は、 "king kond"という言葉があることです。 "king"はストップワードの1つで、 "kong kong"の "king"は削除されています。ダブルワードが削除されないようにする手段はありますか？私のコードは次のとおりです。 text <- VCorpus(VectorSource(newmnt1

1熱

1答えて

リストからR tm_map gsubで大規模な置換/トークン化を行う方法は？

データフレーム内の既知のバイグラムを交換する大規模な検索/置換機能/作業コードスニペットを作成できた人はいますか？例を示します。私はoney-twosie置換えはできませんが、DTM生成の前に単語単位に変換するために、探したい約800語の辞書を活用したいと思っています。たとえば、「Google Analytics」を「google-analytics」に変えたいとします。私はそれが理論的に可能

1熱

1答えて

mc.cores引数を使用するためのtm_mapを取得できません

私は10M以上の文書を含む大きなコーパスを持っています。 Error in FUN(content(x), ...) : unused argument (mc.cores = 10) 私は私の現在のホストされたRのスタジオで15個の利用可能なコアを持っている：私はmc.cores引数を使用して複数のコアを超える変換をしようとするたびに、私はエラーを取得します。私は library(tidyv

-1熱

1答えて

tmを使用して2語句を検索するR

これは複数回尋ねられています。これらのソリューションのどれもが私のデータでは動作しない理由の例 Finding 2 & 3 word Phrases Using R TM Package についてしかし、私は知りません。結果は、ngramのために何回ngram（2、3、または4）を選択しても、常に1グラムの単語になります。誰でも理由を知ることができますか？私はエンコーディングが理由だと思う。編