topic-modeling

    1

    1答えて

    トピックのモデリングを使用してブログのコンテンツを分類しようとしています。 LDA変換を使用して、相関B/Wトピックを見つけることができませんでした。クリケットはスポーツの話題のサブトピックです。しかし、私はそれがHLDAを使って達成できることを知ります。どのように私は、python gensimパッケージでHLDA変換を実装する方法を手伝ってもらえますか?

    0

    1答えて

    私が知る限り、Python/RでLDAモデリングのトピック数を修正する必要があります。しかし、結果は次のように表示されます。topic=10文書、9つのトピックはすべて「健康」に関するものであり、この文書のトピック数は実際には2です。各トピックのキーワードを調べずに、どのように見分けることができ、本当に別個のトピックを手動で数えることができますか? P.S.私はグーグルでグーグルで、テーマ別に語彙

    0

    1答えて

    Rの中に@bens code hereと似たようなものを実装しようとしています。私は非構造化ニュース記事を扱っており、トピックモデリングを行った後にクラスタリングしたいと思います。 @benによってそれは働いた。列車内のデータをどのように分割してテストし、テストデータのクラスターを予測し、テストデータがどのように平均化された平均精度を使用しているかを評価する方法を知りたかったのです。 私はこれが半

    1

    1答えて

    マレットモデルのInputDirectoryに個別ファイルとして保存されたコーパスにポーターアルゴリズムを使用してステミングを適用したいと思います。誰かがそれがどのように実行できるかを助けることができますか?

    2

    2答えて

    はのは、私のデータフレームは、自動車、 の異なる種類になり > DF V1 V2 V3 1 0.3 0.4 0.7 2 0.4 0.2 0.1 3 0.2 0.8 0.3 4 0.5 0.8 0.9 5 0.2 0.7 0.8 6 0.8 0.3 0.6 7 0.1 0.5 0.4 行が含まれており、列はV1、V2、V3の特定のカテゴリの確率だろうと言ってみましょう。

    3

    2答えて

    9GBコーパスでLDAトピックモデリングを行いたいと思います。 100回のトピックで1000回の繰り返しをMALLETで行い、200回の反復バーンイン期間後に10回の反復ごとにハイパーパラメータを最適化するLDAモデルのトレーニングを計画しています。 私は64ビットWin8で作業しています。コンピュータには16GBのRAM、Intel®Core™i7-4720HQプロセッサが搭載されています。 こ

    0

    1答えて

    Rletletには、マレットコマンドライン(--random-seed 1)で可能なランダムシードを使用するオプションがありますか?

    1

    1答えて

    JavaでApache Spark MLを使用してLDAモデルを作成しようとしています。入力ドキュメントはString形式です。私は数字形式のトピックを取得しますが、単語フォーマットは取得しません。 悲しいことに、解決策はR- LDA with topicmodels, how can I see which topics different documents belong to?ですが、私はJ

    2

    1答えて

    Malletで見つかった各トピックの単語の分布をJavaで取得する必要があります(how to get a probability distribution for a topic in mallet?のCLIではなく)。 Introduction to Latent Dirichlet Allocation::私が何を意味するかの例については Topic A: 30% broccoli, 15%

    0

    1答えて

    公式の説明では、LDAのトピック間に自然順序はありません。 show_topics()メソッドについては、num_topicsを返した場合< = self.num_topicsのすべてのトピックのサブセットは任意であり、2回のLDAトレーニングの実行の間に変更される可能性があります。 しかし、私はコーパスの上位10のトピックを頻繁に見つける傾向があります。これを達成する他の方法はありますか? 多く