quanteda

    1

    1答えて

    異なる数の列と行を同時に含む2つのdfm行列を連結する方法がありますか?それはいくつかの追加のコーディングで行うことができるので、私はアドホックコードに興味はありませんが、一般的かつエレガントなソリューションには何かが存在する場合に興味があります。 例: dfm1 <- dfm(c(doc1 = "This is one sample text sample."), verbose = FALSE

    1

    1答えて

    さらなる分析のためにkwicの出力をコーパスに変換するにはどうすればよいですか? より具体的には、キーワードの前後に来る単語(contextPre、contextPost)に基づいてコーパスを作成して、さらなる感情分析を行いたいと考えています。

    2

    1答えて

    私は現時点でRのQuantedaパッケージを使用しています。内容語が互いに近くにある傾向を素早く見積もるために、ステム付き単語のnグラムを計算したいと思います。私が試してみると: twitter.files <- textfile(files) twitter.docs <- corpus(twitter.files) twitter.semantic <- twitter.docs %>%

    0

    2答えて

    私はRの私のコーパスにquantedaを実装しようとしていますが、私は取得しています:私はこれで多くの経験を持っていない Error in data.frame(texts = x, row.names = names(x), check.rows = TRUE, : duplicate row.names: character(0) 。ここでhttps://www.dropbox.

    1

    1答えて

    Rを使用してテキストマイニングを行う場合、テキストデータを再処理した後、さらに調査するために文書用語マトリックスを作成する必要があります。しかし、中国語に似て、英語には「意味論的距離」、「機械学習」などのいくつかの段階がありますが、それらを単語に分割すると全く異なる意味があります。単語(term)。

    1

    2答えて

    RにDFMを作成する前に、異なるフィーチャにウェイトを割り当てることは可能ですか? DFMのmydfmがどのように見えるR str="apple is better than banana" mydfm=dfm(str, ignoredFeatures = stopwords("english"), verbose = FALSE) でこの例を考えてみましょう:私はウェイト割り当てたい、 docs

    2

    1答えて

    使用してテキスト分類のためのナイーブベイズを実装します。タイプに基づいて記事のカテゴリ(つまりビジネス、エンターテイメント)を予測するNaive Bayesアルゴリズムを構築する必要があります。 私はQuantedaでこれをしようとすると、次のコードを持っている: library(quanteda) bbc_data <- read.csv('bbc_articles_labels_all.c