text-mining

0熱

1答えて

私は2つのコーパスを作成しました.1つはツイートテキストを含み、もう1つは会社名を含んでいます。私がしようとしているのは、どの企業がつぶやきで言及されているかを見つけることです。つぶやきの例の文書： > writeLines(as.character(tweet_corp[[175]])) general motor send mexican made model chevi cruze us

0熱

1答えて

文書総数が0である文書用語行列の行を見つけるR

Rのチャットデータに対してトピックモデリングを実行しようとしています文書用語行列の作成プロセスまでは良いです。 dtm<- DocumentTermMatrix(corpus) dtm<-removeSparseTerms(dtm, sparse=0.995) library(topicmodels) rowTotals <- apply(dtm, 1, sum) dtm2 <- dtm

0熱

1答えて

word2vecはどのようにバイナリファイルから結果を取得しますか？

from gensim.models.keyedvectors import KeyedVectors model = KeyedVectors.load_word2vec_format('google_news.bin', binary=True) print(model['the']) # this prints the 300D vector for the word 'the' コ

0熱

2答えて

tm_map条件付き行をマージする

pdfファイルからテキストを抽出し、コーパスオブジェクトを作成しました。テキスト内には、 "、"または " - "で終わる行があり、同じ文に属するので、次の行を追加したいと思います。例えば私は [1566] "this and other southeastern states (Eukerria saltensis," [1567] "Sparganophilus helenae, Sp

0熱

1答えて

Rコードが突然、整頓されたテキストで作業を停止しました

Rの一部のデータについて語分析をしようとしています。私は、調査のテキスト回答であったデータの1列をread.csvを使用してRにインポートしました。私は列 "text"の1つを挙げました。このコードは数日前に正常に動作していましたが、突然それが私にエラーを与えています。これは私が入っていますコードです： library(dplyr) library(tidytext) A1<-read.c

-2熱

1答えて

なぜ2つのベクトルが類似性ではなく、結果は1ですか？

私はCosine類似度公式を使って2つのベクトル間の類似性を計算しています。ベクトル2（-1237373741、27、1、1、331289590、1818540802）ベクトル2（-1237373741、49、1、1、331289590、1818540802）：私はこのような二つの異なるベクターを試し 2つのベクターには少し違いがありますが、結果はです。なぜわからないのですか？誰でも私のため

1熱

1答えて

時間を考慮したトピックモデルのRパッケージまたは公開されたコードはありますか？

私は、2世紀にわたる政治的なスピーチのデータセットでトピックモデリングを実行しようとしています。時間の話題（McCallum and Wang 2006）や動的トピックモデル（Blei and Lafferty 2006）。しかし、経験豊富なコーダーではないので、これらのトピックモデルを実装しているRパッケージやサンプルコードの助けが本当に役立ちます。 Rにそのようなパッケージや公開されたコード

0熱

1答えて

整頓されたテキストフォーマット内のWord置換

こんにちは私はtidy_text形式で作業しています。文字列 "emails"と "emailing"を "email"に置き換えようとしています。 set.seed(123) terms <- c("emails are nice", "emailing is fun", "computer freaks", "broken modem") df <- data.frame(sentence

0熱

1答えて

単語を文章に変換する方法 - テキスト分類

現在、私はBrown Corpusと共同で作業しており、若干問題があります。トークン化機能を適用するには、まずブラウンコーパスを文章にする必要があります。これは私がこれまで持っているものです。 from nltk.corpus import brown import nltk target_text = [s for s in brown.fileids() if s.s

0熱

2答えて

Rテキストマイニング - キーワードに先行する単語を特定する方法

Rを使用してテキストマイニングに取り組んでいますが、いくつかの単語が焦点キーワードの前に3語以下であるかどうかを確認したいと思います。たとえば、私の焦点キーワードはの互換性であり、という単語がという単語が3語以下であるかどうかを知りたいと思っていました。限られた互換性限られたX互換限定XX 互換性：したがって、私は次の組み合わせは、（X =任意の他のワード）が表示された回数に関するテキスト