2017-10-25 10 views
0

私は、それらに関連する潜在的なトピックを持っている可能性があるドキュメントのコレクションを持っています。各ドキュメントは1つ以上のトピックに関連する可能性があります。私は可能なすべての "トピック" /カテゴリとこれらのトピックの説明のマスターファイルを持っています。私は各文書のトピックを予測するモデルを作成しようとしています。継続的ではなくカテゴリレスポンスを予測するためのsLDA

私はRTextToolsを使用して教師付きのテキスト分類を使用する可能性がありますが、これはドキュメントをあるカテゴリまたは別のカテゴリに属する​​ものに分類するのに役立ちます。私は、文書のトピックの割合を決定するのに役立つだけでなく、用語 - トピック/カテゴリの分布を与える解決策を見つけることを模索しています。 sLDAはよく似ているようですが、カテゴリ別ではなく、連続的な変数の結果しか予測できないようです。

+0

これは方法論的プログラミングの質問の多くであるため、Cross Validatedに投稿する方がよいかもしれません。 – jruf003

答えて

0

LDAはクラスを予測する分類方法です。他の方法は、多国籍ロジスティック回帰とすることができる。 LDAは多国籍企業と比較して訓練するのが難しいかもしれない。

update:LDAは、ロジスティック回帰とは異なり、ロジットリンクを使ってPr(Y = k | X = x)を直接予測する分類方法です。LDAはBayes定理を使用して予測します。これは、通常、マルチクラス問題のロジスティック回帰(および多クラス予測のためのその拡張、すなわち多国籍ロジスティック回帰)と比較して、より一般的です。 LDAは観測値が各クラスの共通共分散行列を持つガウス分布から導き出されていると仮定しているため、この仮定がほぼ成り立つときにロジスティック回帰より改善されます。対照的に、これらのガウス仮説が成り立たなければ、ロジスティック回帰はLDAより優れている可能性が示唆される。要約すると、線形判別分析は線形分類モデルの開発には適しているが、ロジスティック回帰とは対照的に根本的なデータについてより多くの前提があり、これらの仮定が成り立たない場合にロジスティック回帰をより柔軟で堅牢な方法にする。私が言ったことは、あなたのデータをよく理解し、それがあなたのデータに適しているかどうかを確認することが重要です。あなたが読むことができ、分類方法の比較を読むことができる良い情報源があります: http://www-bcf.usc.edu/~gareth/ISL/ISLR%20Seventh%20Printing.pdf 私は統計的な学習の紹介、分類の章についてお勧めします。これが役に立ちますようにお願いします。

+0

私は理解しているかわかりません、あなたは親切に手入れをすることができますか? – MiscRas

関連する問題