tm

    1

    1答えて

    テキストファイルの最長行の長さを見つける方法を探しています。 など。 tmパッケージの単純なデータセットを考えてみましょう。 install.packages("tm") library(tm) txt <- system.file("texts", "txt", package = "tm") ovid <- VCorpus(DirSource(txt, encoding = "UTF-

    2

    1答えて

    this websiteのファイルのテキストマイニングをtmパッケージを使用して行いたいとします。私は自分の作業ディレクトリにファイル(すなわち、abell.pdf)のいずれかをダウンロードし、内容を保存しようとするには、次のコードを使用しています: library("tm") url <- "https://baltimore2006to2010acsprofiles.files.wordpr

    1

    2答えて

    RにDFMを作成する前に、異なるフィーチャにウェイトを割り当てることは可能ですか? DFMのmydfmがどのように見えるR str="apple is better than banana" mydfm=dfm(str, ignoredFeatures = stopwords("english"), verbose = FALSE) でこの例を考えてみましょう:私はウェイト割り当てたい、 docs

    -5

    3答えて

    txt <- readLines("this.txt") library(tm) corpus <- Corpus(VectorSource(txt)) corpus <- tm_map (corpus, removePunctuation) tdm <- TermDocumentMatrix (corpus) m <- as.matrix (tdm) d <- data.

    -2

    1答えて

    私はスペイン語twittsでテキストマイニングに取り組んでいます。私の問題は、同じ単語を持っていますが、異なる方法(アクセントとアクセントなし)、例:accion、acciónです。 私はコーディングを使用しようとしました:ユニコード「UTF-8」、しかし仕事をしません。 マイライブラリ ライブラリ(stringi) ライブラリ(ツイッター) ライブラリ(TM) ライブラリ(wordcloud)

    2

    1答えて

    私はコードを提供しなかったので、この質問を以前に聞いて、否定的なフィードバックを得ました。私は一日を過ごして試してみると、今は問題に悩まされています。 このコードは、Stackoverflowのユーザーが "Tyler Rincker" <で取得しました - 彼に大きな感謝!ここ はコードです: strip <- function(x, digit.remove = TRUE, apostroph

    1

    1答えて

    こんにちは:他の人が作成した否定的な用語の辞書があります。彼らがどうやってステミングをやっているのかは分かりませんが、彼らはPorter Stemer以外のものを使ったようです。この辞書には、ステミングが起きると思われるワイルドカード文字(*)があります。しかし、Rコンテキストでgrep()やtmパッケージを使用する方法はわからないので、部分一致をgrepする方法を見つけたいと考えています。 だか

    0

    1答えて

    私はrでtmパッケージを使用しています。私はstemCompletionを含めるまで、すべて正常に動作します。 tm_map(c, stemCompletion, c)引数xのにPlainTextDocumentを渡すので、理論的には、おそらくtm_map(c, content_transformer(stemCompletion), c)を使用したいと思い、 path = '~/Intervie

    0

    2答えて

    tmコーパスを使用して多数の文書を読み込むエンコーディングを指定する必要があります。 すべてのドキュメントは、UTF-8でエンコードされています。テキストエディタを使用したopenendの内容が大丈夫だが、コーパスの内容が奇妙な記号でいっぱいの場合(indicioâ。、 'sœs....) ソーステキストはスペイン語で書かれています。 es_ESの library(tm) cname <- fi