2017-06-02 7 views
0

いくつかのドキュメントにラベルを付けるために、LDAアルゴリズムを試しましたが、結果はあまりにも厄介でした。私は管理されたアプローチを使用することにしました。私は独自のトピックワードマトリックスを作成しましたが、ドキュメントトピックマトリックスの生成方法はわかりません。トピックワードマトリックスを使って訓練できる良いトピックモデリングアルゴリズムを知っていますか?トピックモデリングとLDAを使用した機械学習

答えて

1

正しいトピック語マトリックスが作成されている場合は、各文書のトピックの重みを計算するだけで済みます。たとえば、各文書の各単語の出現を使用し、それらの単語のトピックの重みを合計することができます。出現回数のようないくつかの係数を追加する必要があるかもしれませんが、それはかなり簡単です。

LDAアルゴリズムを使用することもできますが、トピックワードマトリックスを処理するためのトレーニングステップは無視してください。どの実装を使用しているのか分かりませんが、Sklearnのいずれかに従うと、直接components_という属性として渡してからtransform関数を使用できます。

+0

ありがとうございました。私はsklearnの実装を使用しています。 'AttributeError: 'LatentDirichletAllocation'オブジェクトに属性がありません 'exp_dirichlet_component_''機械学習アルゴリズムの専門家ではありませんが、このコンポーネントをどのように起動するか説明できますか? –