topic-modeling

    0

    1答えて

    トピックモデリングにgensimを使用しています。 wordDict = corpora.Dictionary(trimmedTextTokens) gsCorpus = [wordDict.doc2bow(text) for text in trimmedTextTokens] ここで、trimmedTextTokensはストップワードを削除した結果です。今では、限定されたまたは構成され

    1

    3答えて

    PythonのNLTKを使用して、私はブログの投稿からunigrams、bigrams、trigrams、quadgramsを抽出することができました。私は、特定のブログ記事で議論されている適切なトピックを見つけるためにウェブサイト全体のコンテンツを視点に入れました。私は、このようなarticle_topic = [「犬の飼育」]今 、用語を「犬は繁殖」という使用と同様の長さの関連用語を見つけるた

    1

    2答えて

    トレーニングトピックにマレットを使用したいと思います。私のデータは一つのファイルになっていますので、このOne Singleファイルの構築方法については、マレットのドキュメントを調べます。 Mallet websiteで 、つのファイル、1つのインスタンスあたりの行セクションの下で、それは言った: [URL] [言語] [ページのテキスト...] でこの場合、各行の最初のトークン (空白で区切られ

    2

    1答えて

    トピックモデリングでテキストを分析し、そのためにGensimとpyLDAvisを使用しています。 pythonと必要なライブラリをインストールする必要はなく、遠くの同僚と結果を共有したいと考えています。 インタラクティブグラフをHTML/JSファイルとしてエクスポートして、どのWebサーバーにもアップロードできる方法はありますか? 私はそれを実装する方法をドキュメントに記載何かを見つけましたが、見

    4

    1答えて

    私は、ppparkのLDAModelを使用して、コーパスからトピックを取得しています。私の目標はのというトピックを各文書に関連付けることです。その目的のために、ドキュメントごとにtopicDistributionColを設定しようとしました。私はこれに新しいので、私はこのコラムの目的が何であるか分かりません。 from pyspark.ml.clustering import LDA lda_m

    -2

    1答えて

    10のトピックのすべてのドキュメントを分割したいと思います。トピックの分布と共分散マトリックスのディメンションを除いて、収束した結果とよく合います。 なぜトピックの分布が10ではなく9次元のベクトルであり、その共分散行列が10 * 10ではなく9 * 9行列であるのはなぜですか? 中国語でトピックモデルを実装するには、library(topicmodels)と機能CTM()を使用しています。 私の

    0

    2答えて

    私は何千ものウィキペディアの記事からなるラベルのないデータセットを持っています。 これらの記事は、その内容に関して密接に関連する記事のセットにグループ分けされています。 これらのセットのうちの1つを指定すると、すべての記事が属する一般的なトピックを特定したいと考えています。 例:彼らのタイトルで関連記事の以下の集合が与えられる : {微積分、行列、数論} 私は、共通の話題が数学であると判断すること

    1

    1答えて

    私はメーリングリストのメンバーシップが確認されるのを待っています。 トピックモデリングに関する私の卒業論文を書いており、LDAとHLDAのMallet実装を使用しています。 私は4m以上の文書を処理しています。 LDA(ParallelTopicModel)がデータセットをうまく処理していて問題は発生しませんが、HLDAは使用可能なメモリをすべて埋める前に5-6回繰り返すことはできません(私は90

    1

    2答えて

    私はデータを探索するために、マレットでLDAを使用しています。私は、クエリがどうなるか分からない bin\mallet train-topics --input tutorial.mallet --num-topics 40 --optimize-interval 20 --output-state topic-state_doc_40t.gz --output-topic-keys tutori

    0

    1答えて

    library(tm) library(topicmodels) lda_topicmodel <- model_LDA(dtm, k=20, control=list(seed=1234)) RのLDA関数を使用して潜在的なディリクレ割り当てを実行しました。S4オブジェクト形式のLDAがあります。 Rのワードトピックマトリックスとドキュメントトピックマトリックスに変換するにはどうすればよ