topic-modeling

    0

    1答えて

    私は6000レコードのそれぞれがスポーツやニュースなどと関連しているトピックを与えたいというメッセージを表すExcelのシートを持っています。そして、私はそれを文の中の単語から把握したい。私はコーディングなしの結果を持つ簡単なプログラムがほしいと思うだけで、それは私の修士論文のタスクの小さな部分であるので、Excelシートをカテゴリを取得します

    2

    2答えて

    MALLETトピックモデリングでは、--output-topic-keys [FILENAME]オプションは、各トピックの横に、トピックの「Dirichletパラメータ」と呼ばれるMALLETサイトのチュートリアルのパラメータを出力します。 このパラメータは何を表していますか?それはLDAモデルのβですか?そうでない場合、それは何であり、それは何の意味と用途であるのでしょうか。 トピックモデルを生

    0

    1答えて

    いくつかのドキュメントにラベルを付けるために、LDAアルゴリズムを試しましたが、結果はあまりにも厄介でした。私は管理されたアプローチを使用することにしました。私は独自のトピックワードマトリックスを作成しましたが、ドキュメントトピックマトリックスの生成方法はわかりません。トピックワードマトリックスを使って訓練できる良いトピックモデリングアルゴリズムを知っていますか?

    1

    1答えて

    私はPythonのGensimライブラリを使って訓練されたWord2vecモデルを持っています。私は以下のようにトークン化されたリストを持っています。単語のサイズは34ですが、私はちょうど34のうちのいくつか与えている: b = ['let', 'know', 'buy', 'someth', 'featur', 'mashabl', 'might', 'earn', 'affil

    0

    1答えて

    これは私が聞いている素朴な質問かもしれません。私はGensimのWord2vecモデルを訓練したトークン化コーパスを持っています。コードは次のとおりです site = Article("http://www.datasciencecentral.com/profiles/blogs/blockchain-and-artificial-intelligence-1") site.download(

    0

    1答えて

    トピックモデリングを初めて知り、混乱しています。私はトピックの数に応じてさまざまな値でさまざまな時間にMALLETを実行しました。それでは、どの分析項目をさらに分析するかをどのように知っていますか?トピックモデルの評価を扱う論文があることは知っていますが、このようなコードは作成できません。

    0

    2答えて

    私は、前処理後に9582の文書と4144の用語で構成されたいくつかのツイッターアカウントから収集したツイートのデータセットでLDAトピックモデリングを実行しています。 LDA関数を実行するには、モデルを実行するときにGibbsサンプリングドローの数を制御するパラメータ値を定義する必要があります。 fitted_many <- lapply(sequ, function(k) LDA(dtmTopi

    1

    1答えて

    時にはすべてのトピックの確率を返しますが、すべて正常ですが、時には少数のトピックの確率を返します。それは文書によって異なります。一般的に、トピック数が少ない場合、確率は80%以上になるため、最も関連性の高いトピックだけが返されますか?すべての確率を返すように強制する方法はありますか? 多分私は何かが不足しているかもしれませんが、メソッドのパラメータのドキュメントを見つけることができません。

    0

    1答えて

    私は、フォーマットされていないスパースなSMSメッセージのデータセットを持っています。トピックモデリングを使用して、各トピックの確率を確率各メッセージのトピックを整理またはランク付けするトピック。代替ソリューションとして私が考えているのは、自分のデータセットに手作業でラベルを付け、Naiive Bayesなどの教師付き分類アルゴリズムを使用することです。 私は です直面しています課題:ここ はまば