0

ライブストリーム上のツイートのつぶやきに関するトピックモデリングを行う必要があります。入力によってストリーミングが開始され、データがHDFSに保存されます。収集されたデータに対してバッチ・ジョブが実行されます。バッチジョブは、つぶやきの基礎となるトピックを見つけることです。このために、潜在的なディリクレ割り当て(LDA)アルゴリズムを使用してトピックを見つけます。最大文字数140のつぶやきとしてデータを受け取り、HDFSに1行として保存されます。twitterデータにLDA用のドキュメントを作成する方法

私はLDAアルゴリズムに新たなんだと話題のモデルは単語n個の文書間で共起

に基づいて導出されているとして、その上で基本的な理解を持っている私は、LDAに入力するデータを2つのオプションがわかります。

オプション1:1つの行ツイートをLDAの1つのドキュメントとして使用しますか?

オプション2:行とフォーム文書をグループ化してこれらの文書をLDAに渡しますか?

トピックへの語彙(単語)の分布が各オプションについてどのように影響するかを理解したいと思います。より良いトピックモデリングのためにはどのオプションを考慮すべきか

また、これらのotpions以外のツイッターデータでトピックモデリングを行うには、より良い解決策が必要かどうか教えてください。

注:両方のオプションを実行して単語クラウドに表示すると、トピック(3)への単語の分布が両方で異なることがわかりました。

助けてください。

ありがとうございます。

答えて

2

LDAは短い文書で使用するのは少し難解ですが、LDAは単語ごとにトピックを割り当て、文書ごとに複数のトピックを割り当てます。短いテキストで行うと、同じトピックに属する単語がほとんどないことを意味しますが、たいていのツイートにはトピックが1つしか含まれないため、通常はガベージトピックの配布が行われます。

私は、paperと短いテキスト用のトピックモデリング用のJavaツールがあることを知っていますが、私はこれを使ったことがありません。ここではギブスのレポになるlink

オプション2については、LDAを使用して一貫したトピックを得ることは可能だと思いますが、ソース、日付、キーワード、ハッシュタグなどのグループ化の意味構造を見つける必要があります。

すぐに提案されたオプションのいずれかを適用すると、あなたが得た結果に本当に興味があります。

関連する問題