text-mining

    0

    1答えて

    私は2つのコーパスを作成しました.1つはツイートテキストを含み、もう1つは会社名を含んでいます。私がしようとしているのは、どの企業がつぶやきで言及されているかを見つけることです。つぶやきの 例の文書: > writeLines(as.character(tweet_corp[[175]])) general motor send mexican made model chevi cruze us

    0

    1答えて

    Rのチャットデータに対してトピックモデリングを実行しようとしています 文書用語行列の作成プロセスまでは良いです。 dtm<- DocumentTermMatrix(corpus) dtm<-removeSparseTerms(dtm, sparse=0.995) library(topicmodels) rowTotals <- apply(dtm, 1, sum) dtm2 <- dtm

    0

    1答えて

    from gensim.models.keyedvectors import KeyedVectors model = KeyedVectors.load_word2vec_format('google_news.bin', binary=True) print(model['the']) # this prints the 300D vector for the word 'the' コ

    0

    2答えて

    pdfファイルからテキストを抽出し、コーパスオブジェクトを作成しました。 テキスト内には、 "、"または " - "で終わる行があり、同じ文に属するので、次の行を追加したいと思います。例えば 私は [1566] "this and other southeastern states (Eukerria saltensis," [1567] "Sparganophilus helenae, Sp

    0

    1答えて

    Rの一部のデータについて語分析をしようとしています。私は、調査のテキスト回答であったデータの1列をread.csvを使用してRにインポートしました。私は列 "text"の1つを挙げました。このコードは数日前に正常に動作していましたが、突然それが私にエラーを与えています。これは私が入っていますコードです: library(dplyr) library(tidytext) A1<-read.c

    -2

    1答えて

    私はCosine類似度公式を使って2つのベクトル間の類似性を計算しています。 ベクトル2(-1237373741、27、1、1、331289590、1818540802) ベクトル2(-1237373741、49、1、1、331289590、1818540802):私はこのような二つの異なるベクターを試し 2つのベクターには少し違いがありますが、結果はです。 なぜわからないのですか?誰でも私のため

    1

    1答えて

    私は、2世紀にわたる政治的なスピーチのデータセットでトピックモデリングを実行しようとしています。時間の話題(McCallum and Wang 2006)や動的トピックモデル(Blei and Lafferty 2006)。 しかし、経験豊富なコーダーではないので、これらのトピックモデルを実装しているRパッケージやサンプルコードの助けが本当に役立ちます。 Rにそのようなパッケージや公開されたコード

    0

    1答えて

    こんにちは私はtidy_text形式で作業しています。文字列 "emails"と "emailing"を "email"に置き換えようとしています。 set.seed(123) terms <- c("emails are nice", "emailing is fun", "computer freaks", "broken modem") df <- data.frame(sentence

    0

    1答えて

    現在、私はBrown Corpusと共同で作業しており、若干問題があります。トークン化機能を適用するには、まずブラウンコーパスを文章にする必要があります。これは私がこれまで持っているものです。 from nltk.corpus import brown import nltk target_text = [s for s in brown.fileids() if s.s

    0

    2答えて

    Rを使用してテキストマイニングに取り組んでいますが、いくつかの単語が焦点キーワードの前に3語以下であるかどうかを確認したいと思います。たとえば、私の焦点キーワードはの互換性であり、という単語がという単語が3語以下であるかどうかを知りたいと思っていました。 限られた互換性 限られたX互換 限定XX 互換性 :したがって、私は次の組み合わせは、(X =任意の他のワード)が表示された回数に関するテキスト