topic-modeling

    1

    2答えて

    これはよくある問題のようですが、既存の解決策は私のためには機能しませんでした。 私は、マレットパッケージの助けを借りてRでトピックモデリングを実行しようとしています。 コーパスはフォーラムのコメントで構成され、アプリです。 50 MBの大きさ。それは41.975ファイルに分割されます。 ここに私のスクリプトです。この後 documents_65 <- mallet.read.dir("~/2017

    1

    1答えて

    私は、2世紀にわたる政治的なスピーチのデータセットでトピックモデリングを実行しようとしています。時間の話題(McCallum and Wang 2006)や動的トピックモデル(Blei and Lafferty 2006)。 しかし、経験豊富なコーダーではないので、これらのトピックモデルを実装しているRパッケージやサンプルコードの助けが本当に役立ちます。 Rにそのようなパッケージや公開されたコード

    3

    1答えて

    gensimのldamodelには、およびget_term_topicsという2つのメソッドがあります。このgensimチュートリアルnotebookでの使用にもかかわらず 、私は完全にget_term_topicsの出力を解釈する方法を理解し、私が何を意味するかを示すために、以下の自己完結型のコードを作成していない: get_document_topicsについては from gensim im

    1

    1答えて

    私は一連の文書を持っています。私はまた、文書を分類したいトピックのタイトルを持っています。私の好みはGensimでLDAを使うことです。トピックモデリングアルゴリズムでトピックの自分のリストをフィードする方法はありますか?

    0

    1答えて

    ライブストリーム上のツイートのつぶやきに関するトピックモデリングを行う必要があります。入力によってストリーミングが開始され、データがHDFSに保存されます。収集されたデータに対してバッチ・ジョブが実行されます。バッチジョブは、つぶやきの基礎となるトピックを見つけることです。このために、潜在的なディリクレ割り当て(LDA)アルゴリズムを使用してトピックを見つけます。最大文字数140のつぶやきとしてデ

    0

    1答えて

    私は抄録のテキストデータを扱っていますが、stm(構造トピックモデリング)を使用して、私自身の辞書(監督分析用)。 私は問題に取り組んでおり、前に誰かが同じ問題に遭遇したかどうか疑問に思います。 findThoughts()を実行しているとき、私は次のエラーを取得する: Error in findThoughts(out.stm, topics = 27, texts = corpus$docum

    2

    1答えて

    私はStack Overflowデータダンプの一部にMALLETを使用してLDAモデルを訓練し、訓練とテストデータのために70/30分割を行いました。 しかし、perplexity値は、トレーニングセットよりもテストセットの方が低いので、奇妙です。これはどのように可能ですか?モデルがトレーニングデータに適していると思いましたか? 私はすでに私のperplexityの計算を2回チェックしましたが、私

    0

    2答えて

    トピックモデルをcsv形式のtwitterデータで実行したいと思います。私はデータをjupyterにロードしました。 # Import pandas as pd import pandas as pd # Load the dataset tweet_data = pd.read_csv("C://Users/shivam/Desktop/USA_TWEETS .cs

    0

    1答えて

    私はデータを探索するために、LDAをmalletで使用しています。私は訓練とテストのデータがありません。私はちょうど私のデータをクラスタリングするためにそれを使用します。 私はMalletによって提供された多くの有用な診断手段を使用したいと思います。私はこのクエリを使用するときには: bin\mallet train-topics --input doc500.mallet --num-topic

    0

    1答えて

    公開レビューデータから相関トピックモデルを作成していて、かなり奇妙なエラーが発生しています。 CTMで用語(ctm1,5)を呼び出すと、各トピックの上位5つの用語ではなく、ドキュメントの名前が返されます。私が走った、より詳細には 、返さ library(topicmodels) library(data.table) library(tm) a <-Corpus(DirSource("~/