tm - 優秀な図書館

tm

1熱

1答えて

テキストファイルの最長行の長さを見つける方法を探しています。など。 tmパッケージの単純なデータセットを考えてみましょう。 install.packages("tm") library(tm) txt <- system.file("texts", "txt", package = "tm") ovid <- VCorpus(DirSource(txt, encoding = "UTF-

2熱

1答えて

RTEパッケージstrptime（d、fmt）のreadPDFエラー：入力文字列が長すぎます

this websiteのファイルのテキストマイニングをtmパッケージを使用して行いたいとします。私は自分の作業ディレクトリにファイル（すなわち、abell.pdf）のいずれかをダウンロードし、内容を保存しようとするには、次のコードを使用しています： library("tm") url <- "https://baltimore2006to2010acsprofiles.files.wordpr

1熱

2答えて

Rの異なるフィーチャにウェイトを割り当てる

RにDFMを作成する前に、異なるフィーチャにウェイトを割り当てることは可能ですか？ DFMのmydfmがどのように見えるR str="apple is better than banana" mydfm=dfm(str, ignoredFeatures = stopwords("english"), verbose = FALSE) でこの例を考えてみましょう：私はウェイト割り当てたい、 docs

-5熱

3答えて

Rは以下のような特定の単語を削除します：this

txt <- readLines("this.txt") library(tm) corpus <- Corpus(VectorSource(txt)) corpus <- tm_map (corpus, removePunctuation) tdm <- TermDocumentMatrix (corpus) m <- as.matrix (tdm) d <- data.

-2熱

1答えて

テキストの掃除アクセント

私はスペイン語twittsでテキストマイニングに取り組んでいます。私の問題は、同じ単語を持っていますが、異なる方法（アクセントとアクセントなし）、例：accion、acciónです。私はコーディングを使用しようとしました：ユニコード「UTF-8」、しかし仕事をしません。マイライブラリライブラリ（stringi）ライブラリ（ツイッター）ライブラリ（TM）ライブラリ（wordcloud）

2熱

1答えて

キーの用語（コーパス）を別のものに検索するR

私はコードを提供しなかったので、この質問を以前に聞いて、否定的なフィードバックを得ました。私は一日を過ごして試してみると、今は問題に悩まされています。このコードは、Stackoverflowのユーザーが "Tyler Rincker" <で取得しました - 彼に大きな感謝！ここはコードです： strip <- function(x, digit.remove = TRUE, apostroph

1熱

1答えて

R：grepとtmパッケージを使用した部分一致辞書の用語

こんにちは：他の人が作成した否定的な用語の辞書があります。彼らがどうやってステミングをやっているのかは分かりませんが、彼らはPorter Stemer以外のものを使ったようです。この辞書には、ステミングが起きると思われるワイルドカード文字（*）があります。しかし、Rコンテキストでgrep（）やtmパッケージを使用する方法はわからないので、部分一致をgrepする方法を見つけたいと考えています。だか

0熱

1答えて

rtmパッケージを使用したstemCompletionエラー

私はrでtmパッケージを使用しています。私はstemCompletionを含めるまで、すべて正常に動作します。 tm_map(c, stemCompletion, c)引数xのにPlainTextDocumentを渡すので、理論的には、おそらくtm_map(c, content_transformer(stemCompletion), c)を使用したいと思い、 path = '~/Intervie

0熱

2答えて

テキストファイルをtmコーパスに読み込むためのエンコーディングを設定する

tmコーパスを使用して多数の文書を読み込むエンコーディングを指定する必要があります。すべてのドキュメントは、UTF-8でエンコードされています。テキストエディタを使用したopenendの内容が大丈夫だが、コーパスの内容が奇妙な記号でいっぱいの場合（indicioâ。、 'sœs....）ソーステキストはスペイン語で書かれています。 es_ESの library(tm) cname <- fi