2016-09-19 3 views
1

私は無関係のTwitterユーザーのプロファイルを定義するためにTwitterのトピックモデリングを扱っています。私はGensimモジュールを使ってLDAモデルを生成しています。私の質問は、良い入力データを選ぶことです。私は特定のユーザーに割り当てるトピックを生成したいと思います。質問は入力データに関するものです。今では、私自身(スポーツ、IT、政治など)別のカテゴリのユーザーを選んで、そのツイートをモデルに入れて管理する方法を使用していますが、効率的で効果的ではありません。正しい入力データを使ってPythonでTwitterの良いLDAモデルを生成

Twitter全体の意味のあるトピックを生成するには、どのような方法が良いでしょうか?

+1

トピックモデリングのトピックは、ラベルや分類タスクのクラスとは異なるものです。あなたが使用している用語をよく理解して、あなたの質問についてもう一度考えてください。あなたは何を知りたいですか? – jknappen

答えて

0

私がソーシャルメディア会社で働いていたときに使っていたプロファイリングの1つがここにあります。 「スポーツ」フォロワーをプロファイルしたいとします。 まず、Twitter APIを使用して、1つの有名なスポーツハンドルのすべてのフォロワー、たとえば「ESPN」をダウンロードします。

 "ESPN": 51879246, #These are IDs who follow ESPN 
       2361734293, 
       778094964, 
       23000618, 
       2828513313, 
       2687406674, 
       2402689721, 
       2209802017, 

次に、51879246, 2361734293...が従うすべてのハンドルをダウンロードします。それらの「トピック」があなたの機能になります。

ここで必要なことは、フィーチャの数*フォロワーの数と同じサイズの行列Xを作成することだけです。そのフォロワーがフィーチャーディクショナリー内の特定のトピック(フィーチャー)をたどるたびに、Matrixに1を入力し始めます。

次に、再生を開始する簡単な2行です。

model = lda.LDA(n_topics=5, n_iter=1000, random_state=1) 
model.fit(X) 
関連する問題