最近、私は文章分類の問題に取り組んでいます。これらの文章は、製品に関するさまざまな機能に関するフィードバックを投稿した製品や顧客に関する1〜2行のレビューに過ぎません。前処理(ストップワードとステミングの除去)の後、私は教科書を分類せずに出力するために、特徴抽出ライブラリ(word2vec、tf-idfなど)とクラスタリングアルゴリズム(k平均)を使用しています。 。しかし、私はクラスタリングアルゴリズムの詳細なオプションを探しています。具体的には、出力の品質をさらに向上させるためにLDAを試してみたいと思っていましたが、this文章では、文章分類にLDAに関する事実はほとんどありません。LDAモデルは文章(文書ではない)のクラスタリング/分類に役立つことができますか?
私の質問は - 文(文書ではない)の分類にLDAを使用すると役に立ちますか?また、K-平均とは別に、教師なし学習の他の選択肢は、文の分類に適していると言えます。すべてのあなたの提案のために事前にありがとうございます。
注:私は、spark 1.6.1環境でpyspark APIを使用して練習を行っています。
1トピックは、類似の出てきた::トピックごとに、頻繁に言葉がたくさん重なって話題が言葉のほぼ同じセットを共有
自分でLDAを試した後、以下の出力です。私の理解の
一つだった、私のレビューは、特定のドメインに属します。たとえば、私の製品は、この単一のドメインの周りを回るすべてのレビューがクレジットカードドメイン&に属しています。さらに、単語の分布をプロットしようとしたところ、最も頻繁に使用される単語は全人口の約2%に過ぎないことがわかりました。
私は、著者のない論文があなたの問題にどのように関係しているかはわかりません。これは、単語レベルのモデルではなく、より粗い文章レベルでLDAを加速することを意味します。どうしてLDAを試してみませんか? –
はい、私はそれを自分で試してみるつもりです。スパーク1.6.1(http://spark.apache.org/docs/1.6.1/ml-clustering.html#latent-dirichlet-allocation-lda)のエンタープライズ版は、LDA用のPythonベースAPIをサポートしていませんが、spark 2.0はそれを持っています(http://spark.apache.org/docs/2.0.1/ml-clustering.html#latent-dirichlet-allocation-lda)。インフラチームによるエンタープライズアップグレードはほとんど時間がかかりません。その間、誰かが以前の知識を持っていて、その知識を共有できるかどうかを確認しようとしています。私はアウトプットの評価に取り組んでいます。私の個人的な学習を分かち合いましょう。 – user2763088
スパークなしでお試しください。あなたはまだ何が動作しているのかわからないときに拡大縮小する必要はありません。そして、Sparkはしばしば良いC実装よりもはるかに遅いので、それを参考にすることはできません。また、機能が非常に限られているため、Sparkでは動作しない可能性がありますが、より良いツールでは機能します。 –