text2vec

    0

    1答えて

    名前、住所、電話番号の存在について、いくつかの言語で大きなテキストフォルダを分析したいと思います。 これらは、通常、「住所」、「電話番号」、「名前」、「会社」、「病院」、「救助者」という単語が先行します。私はこれらの言葉の辞書を持っています。 テキストマイニングツールが仕事に最適かどうかは疑問です。 私は、これらのすべてのドキュメントのコーパスを作成し、特定の辞書エントリの右または下に特定の(私は

    1

    1答えて

    テキストマイニングを行うためにOracle DBからデータを抽出します。私のデータはUTF8であり、vocabはそれを処理できません。 library(text2vec); library(DBI); Sys.setenv(TZ="+03:00"); drv=dbDriver("Oracle"); con=dbConnect(drv,username="user","pass",dbnam

    0

    1答えて

    現在、我々は、AWS EC2(単一インスタンス)で大きなデータセットを処理するtext2vecを使用しています。テキストデータは今後大きくなり、RHadoop(MapReduce) text2vecとRHadoop(MapReduce)との互換性があるかどうかを知ることはできません。

    0

    1答えて

    キャレットパッケージ[R]でモデルを実装したいいる:https://cran.r-project.org/web/packages/text2vec/vignettes/text-vectorization.html#tf-idf ので、分類器はこのように実装された: xとyの glmnet_classifier = cv.glmnet(x = dtm_train_tfidf, y = train

    1

    1答えて

    私は現在、text2vecパッケージのLDAを使用してトピックモデリングを行っています。私はdtm行列を作成し、次にとそのfit_transformメソッドをn_topics=50で適用しました。 各トピックのトップワードを見ているうちに、私の心に疑問が浮かびました。モデルを新しいデータに適用する予定です。以前にモデルでは遭遇しなかった新しい単語が出現する可能性があります。モデルは各単語をそれぞれ

    0

    1答えて

    dtm_train_tfidf私は疎行列を受け入れるようになっている関数LiblineaRを使用していCSC形式dgCMatrix に疎行列です。私は疎行列dtm_train_tfidfを使用する場合ただし、次のエラーが発生します。 library(LiblineaR) LiblineaR(data=dtm_train_tfidf, target=train$setiment, type =

    1

    1答えて

    私は、教授された回帰/分類を行うためにtext2vecに実装されたGloVe単語埋め込みを使用したいと思います。単語ベクトルの生成方法については、text2vecのホームページ上で役立つチュートリアルを読んでいます。しかし、私はさらに進んでいく方法をつかむことができません。つまり、これらの単語ベクトルを適用または変換し、各文書がベクトル(私が想定している成分単語のベクトルから派生したもの)によって

    2

    1答えて

    私は、異なるパッケージの結果、したがってアルゴリズムがどのように異なっているのか、同様のトピックを生成するためのパラメータを設定できるのかどうか疑問に思っていました。私は特にパッケージtext2vecとtopicmodelsを見ました。 これらのパッケージで生成された10のトピック(用語についてはコードセクションを参照)を比較するために以下のコードを使用しました。私は、同様の意味を持つトピックの集

    0

    1答えて

    エラーは次のとおりです。 > lda_model = LDA$new(n_topics = 3, vocabulary = vocab, doc_topic_prior = 0.1, topic_word_prior = 0.01) Error in .subset2(public_bind_env, "initialize")(...) : unused argument (voca

    0

    1答えて

    同じデータセットを使用して、text2vecにtf-idf DTMとn-gramベースのDTMを作成しました。今、私はそれらを別々にglmnetを実行することが、私はCBIND経由にこれら2つのDTMのを組み合わせると、glmnetは私にエラー与える: Error in validObject(.Object) :invalid class “dgCMatrix” object: length(D