2016-12-01 1 views
0

以下のNLPタスクを達成するための最良のPythonライブラリを探しています。トピックタグ付けのためのPythonライブラリ/特定のトピックセットを持つ文章のスコア付け

"彼はチャクリー王朝の10番目の君主であるが、彼の陛下の望みを果たし、すべてのタイの利益のために受け入れることを希望するラーマーとして知られることになる" (この記事から取られた文http://www.bbc.com/news/world-asia-38168912

この文章のトピックスコアを計算したいと思います。たとえば、「トピックセット」を{"政治"、 "技術"、 "ビジネス"、 "健康"、 "エンターテイメント"}と定義した場合、

{"政治" :0.9、 "tech":0.1、 "business":0.1、 "health":0.05、 "entertainment":0.2}

私が達成しようとしている重要なことは、そのセットだけの話題のスコアを持つこと。また、文章は比較的短く、ストリーミング形式の文章の出力を計算したいと考えています。

ありがとうございました!

答えて

1

トピックモデリングは依然として困難な問題ですので、完璧な結果を期待してはいけません(特に、対象ドメインの適切なトレーニングコーパスなし)。

言われているように、私はgensimパッケージで幸いでした。特に、Latent Dirichlet Allocationモジュールを見ていきます。

関連する問題