topic-modeling

    3

    1答えて

    from nltk.tokenize import RegexpTokenizer from stop_words import get_stop_words from gensim import corpora, models import gensim import os from os import path from time import sleep tokenizer

    0

    1答えて

    私はgensimのLdaModelを使用しています。documentationによれば、パラメータはrandom_stateです。しかし、私が言うエラー取得しています: TypeError: __init__() got an unexpected keyword argument 'random_state' をrandom_stateパラメータを指定しないと予想されるように、機能が動作しま

    0

    1答えて

    : https://papers.nips.cc/paper/2466-hierarchical-topic-models-and-the-nested-chinese-restaurant-process.pdf 私は生成モデルがどのように機能するかについて質問があります。生成モデルの出力はどのようになり、推論(Gibbsサンプリング)段階でどのように使用されますか。私は、生成モデルと推論部分と

    -2

    2答えて

    私は、例えば15のつぶやきを持つ文書を持っています。クエリが与えられた場合、どのようにして最も関連性の高いツイートをクエリにランク付けすることができますか? Dが15件のつぶやきを含む文書も聞かせて、次のとおりです。 D = ['Tweet 1', 'Tweet 2' ..... 'Tweet 15'] Q = "some noun phrase" はQを考えると、どのような方法で我々は少な

    1

    1答えて

    私は無関係のTwitterユーザーのプロファイルを定義するためにTwitterのトピックモデリングを扱っています。私はGensimモジュールを使ってLDAモデルを生成しています。私の質問は、良い入力データを選ぶことです。私は特定のユーザーに割り当てるトピックを生成したいと思います。質問は入力データに関するものです。今では、私自身(スポーツ、IT、政治など)別のカテゴリのユーザーを選んで、そのツイー

    2

    1答えて

    私はトピックの各単語に割り当てられた重みがMalletでどのようなものであるかを調べようとしています。 私はそれが何らかの形の文書発生カウントであると仮定しています。しかし、私はその人物がどのように到着したかを理解するのに苦労しています。 私のモデルでは、複数のトピックに複数の単語があり、それぞれのトピックに異なる重みが割り当てられているため、数字はコーパス全体の単語数ではありません。私の次の推測

    0

    1答えて

    私はLDAをRで使用して、ITサポートチケットを関連するトピックに分類しようとしています。 私のコーパスの内容は、5,550の文書と1882語です。私はで始まり、12,000語で開始します。しかし、共通のストップワードやその他のノイズワードを削除した後、私は1800個の奇妙な単語で上陸しました。 LDAvisの出力を調べると、アルゴリズムによって返された結果/トピックは、コーパスのサンプルをチェッ

    -1

    1答えて

    私は約1,400のドキュメントのコーパスを持っています。私はすべてのテキストをtmパッケージを使ってクレンジングしました。私の最後のステップは、DTMマトリックスの作成でした。 私は、人間が検査した200の文書と割り当てられたトピック(カテゴリ)に基づいてLDAモデルを訓練しようとしています。 残念ながら、再現可能な例を共有することはできません。 自由に利用できるデータセットの1つを例として、これ

    0

    1答えて

    以下のNLPタスクを達成するための最良のPythonライブラリを探しています。 "彼はチャクリー王朝の10番目の君主であるが、彼の陛下の望みを果たし、すべてのタイの利益のために受け入れることを希望するラーマーとして知られることになる" (この記事から取られた文http://www.bbc.com/news/world-asia-38168912) この文章のトピックスコアを計算したいと思います。た