2015-10-06 8 views
12

私は、トピックモデリングの最も一般的なテクニック(テキストから可能なトピックを抽出する)がLatent Dirichlet allocation(LDA)であることを読んだ。トピックモデリングにWord2Vecを使用する

しかし、Word2Vecでトピックモデリングを試してみると、ベクトル空間の単語をクラスタリングするのにはいいですか?したがって、クラスタはトピックと見なすことができませんでしたか?

いくつかの研究のためにこのアプローチに従うことが理にかなっていると思いますか?最終的に私が興味を持っているのは、トピックからテキストからキーワードを抽出することです。 Word2Vecで

+2

私は最近、これらの行に沿って何かを試しました。Word2Vec(またはGloVe)ベクターをクラスタリングすることで、一貫したトピックを得ることができます:goo.gl/irZ5xI – duhaime

+0

これは確かに可能ですが、トピックモデリングとは言いません。 – jknappen

+0

@duhaimeご返信ありがとうございます!あなたが取り組んでいることはまさに私が探しているものです!場合によっては、クラスターを、例えば、あなたが抽出したトピックと比較することができます。 LDA? 私はこのトピックに慣れていないので、関連する研究論文を見つけることができるキーワードを教えていただければ幸いです – user1814735

答えて

0

、「犬が猫を見た」3つの文
を考えてみましょう、
は「犬は猫を追いかけた」、
「猫が木に登った」
ここでは、我々は、入力された単語「猫」を与え、文脈語(cat)を与えられた全ての単語の確率に基づいて、「登った」という出力単語を得る。

その単語のモデルの連続バッグ。私たちは、文脈に基づいて入力語に似た言葉を得るでしょう。 Word2Vecは巨大なデータセットでのみ有効です。

LDAは、コーパスからトピックを抽象化するために使用されます。それは文脈に基づいていません。 Dirichletディストリビューションを使用してトピック上に単語を描画し、ドキュメント上にトピックを描画します。私たちがここで直面する問題は、ランダム性です。毎回異なる出力が得られます。

私たちが選択する手法は、当社の要件に依存します。

+0

ランダムシード(例:マレット)を設定することで、LDAのランダム性を制御できます。これにより、複製可能な結果が得られます。異なるランダムな種が異なるトピックモデルを与えるという事実は変わりません。 – jknappen

+0

ok.IはPython(gensim)で実装しました。私は20回の反復を行い、すべての出力トピックの交差点をとった。理論的には、Dirichletの分布によると、出力は毎回ランダムです。私はjavaでmalletを使用しませんでした。情報に感謝@jknappen。 –

3

2人で解決しようとしています。

StichFixのChris MoodyがLDA2Vecで出てきましたが、CMUのPh.Dの学生の中には、code hereという名前の「Word埋め込みのトピックモデルのガウスLDA」という論文がありました。感覚的な結果を出力する。 word2vecをガウス関数(実際には数学を解いてみるとT-ディストリビューション)を使って単語 - トピック分布を使うという興味深い考えです。 Gaussian LDAは、訓練の語彙を処理できなければなりません。

LDA2Vecは、LDAモデルと単語ベクトルの両方を同時に訓練しようとします。また、LDAプリオーターを非単語に置き、本当に面白い結果を得ることもできます。

8

次の論文で見たいと思うかもしれません:

ダットクオックグエン、リチャード・ビリング、蘭杜、マーク・ジョンソン。 2015. Improving Topic Models with Latent Feature Word Representations。計算言語学会誌、vol。 3巻、299~313頁。 [CODE]

Yang Liu、Zhiyuan Liu、Tat-Seng Chua、Maosong Sun。 2015. Topical Word Embeddings。人工知能に関する第29回AAAI会議の議事で、2418-2424。 []

最初の論文は、単語埋め込みをLDAモデルとドキュメントごとの1つのトピックDMMモデルに統合しています。トピックコヒーレンス、ドキュメントクラスタリング、およびドキュメント分類タスク、特に小文字または短いテキスト(ツイートなど)の大幅な改善が報告されています。

第2の論文もまた興味深い。 LDAを使用して各単語のトピックを割り当てた後、Word2Vecを使用して、単語とトピックの両方に基づいて単語の埋め込みを学習します。

関連する問題