lda

    0

    1答えて

    私はgensimを使用してLDAモデルを訓練しました。私はLdaがデータを2つのより低いレベルの行列(ref:https://www.analyticsvidhya.com/blog/2016/08/beginners-guide-to-topic-modeling-in-python/)に減らしているという印象を受けていますが、用語トピックマトリックスにアクセスする方法を理解できないようです。

    0

    1答えて

    私は、マレットライブラリを使ってトピックモデリングを行っています。私のデータセットはfilePathパスにあり、model.getData()には私のデータセットと同じ約27000行があるので、csvIteratorはデータを読み取ることができます。 最初の10文書のインスタンスとトピックシーケンスを出力するループを作成しましたが、トークンのサイズは0です。どこが間違っていましたか? 以下では、最

    -1

    1答えて

    最近、私は文章分類の問題に取り組んでいます。これらの文章は、製品に関するさまざまな機能に関するフィードバックを投稿した製品や顧客に関する1〜2行のレビューに過ぎません。前処理(ストップワードとステミングの除去)の後、私は教科書を分類せずに出力するために、特徴抽出ライブラリ(word2vec、tf-idfなど)とクラスタリングアルゴリズム(k平均)を使用しています。 。しかし、私はクラスタリングアル

    0

    1答えて

    私はトレーニングセットにdlibのLDAを適合させ、トレーニングセットとテストセットの両方に変換を適用したいと思います。私はこの問題を再現するために最小限の例を書いた。 LDAを使用するセクションを削除すると、意味のある予測が出力されます。 #include <iostream> #include <vector> #include <dlib/svm.h> int main() {

    0

    1答えて

    私は、それらに関連する潜在的なトピックを持っている可能性があるドキュメントのコレクションを持っています。各ドキュメントは1つ以上のトピックに関連する可能性があります。私は可能なすべての "トピック" /カテゴリとこれらのトピックの説明のマスターファイルを持っています。私は各文書のトピックを予測するモデルを作成しようとしています。 私はRTextToolsを使用して教師付きのテキスト分類を使用する可

    -4

    1答えて

    私はユーザーからの入力を受けなければならず、そのグループの単語だけが入力文字列が出現した場所に戻ってくるはずです。たとえば、人を検索すると、人が出現する単語のグループだけを出力として取得する必要があります。ここ は私のサンプル出力です:ここで [(0, '0.897*"allah" + 0.120*"indeed" + 0.117*"lord" + 0.110*"said" + 0.101*"pe

    0

    1答えて

    崩壊したGibbsサンプリングを使用してLDAトピックモデルを最適化しようとしています。私は、トピックkの数を最適化するために、Rでldatuningパッケージを使用している: controls_tm <- list( burnin = 1000, iter = 4000, thin = 500, nstart = 5, seed = 0:4,

    1

    1答えて

    バイグラムでトピックモデルを構築したいと考えています。 Javaでこれを実装するには、どのような方法が推奨されますか? 現在、GoogleではMallet Java APIを使用しています。 具体的には、ParallelTopicModelは、トークンをインスタンスオブジェクトのデータパラメータに渡します。 ありがとうございます。

    0

    1答えて

    Rでtopicmodelsパッケージを使用してトピックモデリングを行っています。私はCorpusオブジェクトを作成しています。基本的な前処理を行い、DocumentTermMatrix : library(topicmodels) #Set parameters for Gibbs sampling burnin <- 4000 iter <- 2000 thin <- 500 see

    0

    1答えて

    私は短いテキストの話題モデリングを扱っており、同じテーマに焦点を当てた3つのモデル、すなわちBTM、WNTM、 )。 私は従来のLDA(これはRパッケージtopicmodelsを使用して実装しました)では、テキスト文書の構造化されていない形がDocument-Term matrix(DTM)の構築を介してコンピュータ可読形式に変換されています。 私は、上記のモデルがDTMに似たマトリックスを作成す