私は、フォーマットされていないスパースなSMSメッセージのデータセットを持っています。トピックモデリングを使用して、各トピックの確率を確率各メッセージのトピックを整理またはランク付けするトピック。代替ソリューションとして私が考えているのは、自分のデータセットに手作業でラベルを付け、Naiive Bayesなどの教師付き分類アルゴリズムを使用することです。SMSメッセージからトピックを抽出する
私は
です直面しています課題:ここ はまばらで、私はトピックモデルがうまく機能しなかったと仮定理由ですので、スパムコンテンツが含まれている私のSMSメッセージのサンプルですこれは正しい考え方(分類を選択するか?)または これは管理されていない問題またはトピックのモデリングですか?
データセットを準備する方法:トレーニングデータセットのラベルまたはすべての可能なカテゴリとして1つのカテゴリ(1 列以上)
と各メッセージには、これはマルチラベルまたはマルチクラス分類問題
です
正しいことを確認する私が手動でデータにラベルを付ける場合は、トレーニングに1つ以上のラベルを付ける必要がありますか?あなたが言うように、私は最高のxトピックを使用するためにNaiive Bayesにハックを使用することができますか? – user3379762
私はデータセットのコピーを上に貼り付けて、それがどのようにフォーマットされていないかを確認しました。トピックモデリングを使用しないことを選択してもいいですか?最高のもの – user3379762