私は現時点でRのQuantedaパッケージを使用しています。内容語が互いに近くにある傾向を素早く見積もるために、ステム付き単語のnグラムを計算したいと思います。私が試してみると:quantgramを使ってngram内のすべての単語を抹消する方法は?
twitter.files <- textfile(files)
twitter.docs <- corpus(twitter.files)
twitter.semantic <- twitter.docs %>%
dfm(removeTwitter = TRUE, ignoredFeatures = stopwords("english"),
ngrams = 2, skip = 0:3, stem = TRUE) %>%
trim(minCount = 50, minDoc = 2)
バイグラムには最終的な単語しかありません。しかし、私が最初に踏み外そうとすると:
twitter.files <- textfile(files)
twitter.docs <- corpus(twitter.files)
stemmed_no_stops <- twitter.docs %>%
toLower %>%
tokenize(removePunct = TRUE, removeTwitter = TRUE) %>%
removeFeatures(stopwords("english")) %>%
wordstem
twitter.semantic <- stemmed_no_stops %>%
skipgrams(n = 2, skip = 0:2) %>%
dfm %>%
trim(minCount=25, minDoc = 2)
そして、Quantedaは、ステムリストの使い方を知らない。私はエラーを取得します:
assignment of an object of class “NULL” is not valid for @‘ngrams’
in an object of class “dfmSparse”; is(value, "integer") is not TRUE
は、私は茎の言葉にDFMを使用するために行うことができ、又は第一及び第二の幹ngramsを行うにはdfm
を伝えるために中間ステップはありますか?
私はあなただけに関数を適用し、wordstemは、直接、すなわち、最初のコーパスに変換していないテキストにskipgrams適用されるかもしれないことを考えますテキストのベクトル。 – lmkirvan
私はreadLinesを使ってファイルを読み込み、トークン化し、removeFeaturesとwordstemを使ってファイルをロードしてから、結果をstemmedファイルとして保存するか、コーパスに入れて使用できるという点で、仕事を得ることができます。 私は結果をキャッシュすることができますが、 'stem'と' ngrams'をうまく組み合わせる方法を見つけたいと思っています。 –