lda

0熱

1答えて

ターゲット変数を破壊せずにキャレットにダミー変数を使用するにはどうすればよいですか？ set.seed(5) data <- ISLR::OJ data<-na.omit(data) dummies <- dummyVars(Purchase ~ ., data = data) data2 <- predict(dummies, newdata = data) split_factor

0熱

1答えて

分類LDAとTFIDF

私はテキストデータに対してマルチラベル分類を実行していました。TFIDFがLDAを大幅に上回っていることがわかりました。 TFIDF精度は約50％であり、LDAは約29％であった。これは予期されているのですか、LDAがこれより優れていますか？

0熱

3答えて

PythonでLDAモデルから単語雲を生成する方法は？

私は新聞記事に関するいくつかの話題モデリングを行い、Python3でgensimを使ってLDAを実装しました。今度は、トピックごとに上位20語を使用して、各トピックごとに単語クラウドを作成したいと考えています。私は単語を印刷してLDAモデルを保存することができますが、単語の雲を生成するためにさらに使用できる各トピックのトップワードを保存する方法はありますか？私はGoogleに試みましたが、関連す

1熱

1答えて

text2vecからトピック確率テーブルを取得する方法LDA

text2vecパッケージのLDAトピックモデリングは素晴らしいです。これはtext2vecのLDAのコードが V1 V2 V3 V4 1 0.001025237 7.89E-05 7.89E-05 7.89E-05 2 0.002906977 0.002906977 0.014534884 0.002906977 3 0.003164557 0.003164557 0.003164557

3熱

1答えて

SVMによるテキスト分類を行うための機能としてLDAのトピックモデリング情報を使用

SVM分類器に供給される機能としてトピックモデリング情報を使用してテキスト分類を実行したいと考えています。そこで、データセットの2つのパーティションのコーラスが変更されているので、データセットのトレーニングパーティションとテストパーティションの両方でLDAを実行することで、トピックモデリング機能をどのように生成できるか疑問に思っていましたか？私は誤った仮定をしていますか？ scikit lear

2熱

1答えて

gensim LDAモジュール：常に均一な局所分布を得る

私は一連の文書を持っており、各文書のトピック分布を知りたい（トピック数の値が異なる）。私はthis questionからおもちゃプログラムを取った。 gensimから提供されたLDAを使用してから、テストデータをトレーニングデータとして与えて、トレーニングデータの各ドキュメントのトピックの分布を取得します。しかし、私はトピックの分布を常に統一しています。ここでは、私がここで import gen

1熱

1答えて

SKlearn LDLとGensim LDAのPerplexityの比較問題

私はsklearnとgensimの両方でldaを適用しました。次に、保留データの混乱をチェックしました。私はsklearnのperplexyのgensimと正の値の混乱のために否定的な値を得ています。どのようにそれらの値を比較するのですか？あなたがnp.exp(-1. * gensim_model.log_perplexity(train_corpus))を使用してgensimのパープレキシティ

1熱

3答えて

Pythonのキーワードから類似のトピックのグループを見つけるには？

PythonのNLTKを使用して、私はブログの投稿からunigrams、bigrams、trigrams、quadgramsを抽出することができました。私は、特定のブログ記事で議論されている適切なトピックを見つけるためにウェブサイト全体のコンテンツを視点に入れました。私は、このようなarticle_topic = [「犬の飼育」]今、用語を「犬は繁殖」という使用と同様の長さの関連用語を見つけるた