lda

    0

    1答えて

    ターゲット変数を破壊せずにキャレットにダミー変数を使用するにはどうすればよいですか? set.seed(5) data <- ISLR::OJ data<-na.omit(data) dummies <- dummyVars(Purchase ~ ., data = data) data2 <- predict(dummies, newdata = data) split_factor

    0

    1答えて

    私はテキストデータに対してマルチラベル分類を実行していました。TFIDFがLDAを大幅に上回っていることがわかりました。 TFIDF精度は約50%であり、LDAは約29%であった。 これは予期されているのですか、LDAがこれより優れていますか?

    0

    3答えて

    私は新聞記事に関するいくつかの話題モデリングを行い、Python3でgensimを使ってLDAを実装しました。今度は、トピックごとに上位20語を使用して、各トピックごとに単語クラウドを作成したいと考えています。私は単語を印刷してLDAモデルを保存することができますが、単語の雲を生成するためにさらに使用できる各トピックのトップワードを保存する方法はありますか? 私はGoogleに試みましたが、関連す

    1

    1答えて

    text2vecパッケージのLDAトピックモデリングは素晴らしいです。これはtext2vecのLDAのコードが V1 V2 V3 V4 1 0.001025237 7.89E-05 7.89E-05 7.89E-05 2 0.002906977 0.002906977 0.014534884 0.002906977 3 0.003164557 0.003164557 0.003164557

    3

    1答えて

    SVM分類器に供給される機能としてトピックモデリング情報を使用してテキスト分類を実行したいと考えています。そこで、データセットの2つのパーティションのコーラスが変更されているので、データセットのトレーニングパーティションとテストパーティションの両方でLDAを実行することで、トピックモデリング機能をどのように生成できるか疑問に思っていましたか? 私は誤った仮定をしていますか? scikit lear

    2

    1答えて

    私は一連の文書を持っており、各文書のトピック分布を知りたい(トピック数の値が異なる)。私はthis questionからおもちゃプログラムを取った。 gensimから提供されたLDAを使用してから、テストデータをトレーニングデータとして与えて、トレーニングデータの各ドキュメントのトピックの分布を取得します。しかし、私はトピックの分布を常に統一しています。ここで は、私がここで import gen

    1

    1答えて

    私はsklearnとgensimの両方でldaを適用しました。次に、保留データの混乱をチェックしました。 私はsklearnのperplexyのgensimと正の値の混乱のために否定的な値を得ています。どのようにそれらの値を比較するのですか?あなたがnp.exp(-1. * gensim_model.log_perplexity(train_corpus))を使用してgensimのパープレキシティ

    1

    3答えて

    PythonのNLTKを使用して、私はブログの投稿からunigrams、bigrams、trigrams、quadgramsを抽出することができました。私は、特定のブログ記事で議論されている適切なトピックを見つけるためにウェブサイト全体のコンテンツを視点に入れました。私は、このようなarticle_topic = [「犬の飼育」]今 、用語を「犬は繁殖」という使用と同様の長さの関連用語を見つけるた