サポートベクターマシン(SVM)を使用してドキュメント分類を実行しようとしています。私が持っているドキュメントは、電子メールのコレクションです。私はSVM分類器を訓練するために約3000の文書を持っており、私は分類が必要な約700の試験文書セットを持っています。LSA/SVDを使用したドキュメント分類
私は、バイナリDocumentTermMatrixを最初にSVMトレーニングの入力として使用しました。私は、テストデータでの分類について約81%の精度を得ました。いくつかのストップワードを削除した後、DocumentTermMatrixが使用されました。
私はこのモデルの精度を向上させたいので、LSA/SVDに基づく次元削減を使用して、結果として得られた縮小係数を分類モデルの入力として使用しようとしました(20,50,100,200個の特異値を約3000語の元の袋)。それぞれのケースで分類の性能が悪化した。 (LSA/SVDを使用する別の理由は、65レベルのレスポンス変数の1つでメモリの問題を克服することでした)。
誰かがLSA/SVD分類のパフォーマンスを改善する方法に関するいくつかの指針を提供できますか?これは特定のデータやコードがない一般的な質問ですが、どこからデバッグを開始するのかに関する専門家の意見を参考にしてください。そして建物の分類モデル(パッケージ:kernelsvm)
ありがとう:
FYI、私は、テキストの前処理(TM、雪だるま、LSAパッケージ)を行うためのRを使用しています。
分類の際に同じ低いランク変換を使用しましたか?テスト文書ベクトルも次元を小さくする必要があります。 – adi