2017-05-29 2 views
1

LDAを使用して私のデータセットの異常値を見つけたいと思います。アウトライヤーを指定するには、この場合、訓練されたモデルで新しい目に見えない文書の境界値またはパーフェクシティー値を使用する予定ですか? その後、昇順で値を並べ替えて、それが異常値であるかどうかをチェックします。 私の問題は、個々のドキュメントのバインド/ perplex値を取得できなかったことです。モデルによってthrowされる"TypeError: 'int'オブジェクトはサブスクリプト可能ではありません"エラー。訓練されたモデル上で新しい目に見えない文書の境界値または混乱値を取得する方法は?

私のケースを解決するのを手伝っていただければ幸いですか?事前に

tokenized_corpora = dictionary.doc2bow(_acc[2]) 
total_number_of_words_tokenized_corpora = len(tokenized_corpora) 
bound_corpora = ldaModel.bound(tokenized_corpora) 
per_word_perplex_corpora = np.exp2(-bound_corpora/
total_number_of_words_tokenized_corpora) 

ありがとう:

は、念のために、私は私のコードを添付しています。

答えて

1

は、私の研究によると、単一の文書のパープレキシティをログ取得するために、次のコマンドを使用することができます。

ldaModel.log_perplexity([bow]) 
関連する問題