topic-modeling

    0

    1答えて

    と軸1のための範囲外である私が使用するデータセットの一部です: u'tff prep normalized clean water permability ncwp result outside operating range', u'technician inadvertently omitted documenting initial room \u201c cleaned sanitize

    0

    1答えて

    トピックモデリング(lda)に関する質問があります。 トピックモデリングの原則を完全に理解していないため、質問が奇妙に思えるかもしれません。 最後にこのフレーズはランダムですが、それは高い頻度(確率)ですか? test = ranking[:5] このフレーズの正確な意味はなんですか? 私のコードは、ドキュメントの数と同じ数のトピックを取得しました(ドキュメントの数よりも減らすことはできないと

    2

    1答えて

    私はGensimを使用してLDAモデルを構築しで話題のワードにアクセスしないと私は唯一の無確率話題の単語を取得するにはどうすればよいだけの話題の単語を取得したいと私が試しただけ 何IDs.wordsする方法print_topics()とshow_topics()はgensimで機能しますが、クリーンな言葉を得ることはできません! これは私がshow_topicsを試してみましたが、私はその言葉やそ

    0

    1答えて

    私はLDAをpython.nowで実装しました。私がLDAから得たトピックにラベルを付けるとします。トピックモデルの [(0, u'0.023*"alternate" + 0.023*"transfervisions" + 0.013*"tvcommunity"'), (1, u'0.026*"minimalism" + 0.026*"minimalist" + 0.018*"honking"')

    0

    1答えて

    STMモデルが収束すると、Rがクラッシュすることが頻繁に発生します。 30h +見積もりセッションの後の1つの例については、下の画像を参照してください。これは、異なるデータサイズを持つ2つの異なるコンピュータで発生しています。私はこれらのクラッシュにつながる特定のパターンを特定することができませんでした。クラッシュは決定的ではないようです。 モデル推定の設定は、この問題を解決する方法を # ful

    0

    1答えて

    私は言語学論文のトピックモデリングを行っています。私はGensimフレーズを使用して頻繁にコロケーションを識別しています。私は用語を特定の言語用語であるため、用語を「支援」と「それ」を1つの単語としてマークしたいと考えています。しかし、ストップワードを取り出した後にGensimモデルを作成すると、ストップワードを含んでいるためこれらのコロケーションは見つからず、ストップワード(または「それ」や「d

    1

    1答えて

    つぶやきのマイニングのためにJavaでMallet 2.0.7を使用しています。 ドキュメントによれば、トピックモデリングのためには、CsvIteratorを使ってデータセットを読み込む必要があります。私は、x列を追加し、行、X、場所、ユーザ名、hashtaghs、テキスト、リツイート、日付、お気に入りnumberOfCommentラベルの : Reader fileReader = new In

    0

    1答えて

    私は、マレットライブラリを使ってトピックモデリングを行っています。私のデータセットはfilePathパスにあり、model.getData()には私のデータセットと同じ約27000行があるので、csvIteratorはデータを読み取ることができます。 最初の10文書のインスタンスとトピックシーケンスを出力するループを作成しましたが、トークンのサイズは0です。どこが間違っていましたか? 以下では、最

    0

    1答えて

    私は、それらに関連する潜在的なトピックを持っている可能性があるドキュメントのコレクションを持っています。各ドキュメントは1つ以上のトピックに関連する可能性があります。私は可能なすべての "トピック" /カテゴリとこれらのトピックの説明のマスターファイルを持っています。私は各文書のトピックを予測するモデルを作成しようとしています。 私はRTextToolsを使用して教師付きのテキスト分類を使用する可

    0

    1答えて

    崩壊したGibbsサンプリングを使用してLDAトピックモデルを最適化しようとしています。私は、トピックkの数を最適化するために、Rでldatuningパッケージを使用している: controls_tm <- list( burnin = 1000, iter = 4000, thin = 500, nstart = 5, seed = 0:4,