0
私はテキスト(つぶやき)の分類を実行するためにWeka's IBkを使用しています。私はトレーニングとテストのデータをベクトル空間に変換しています。テストデータの分類を実行するとき、最良の結果はK = 1から得られます。訓練データとテストデータは互いに分離されています。なぜK = 1が最良の精度を与えるのですか?KNNはK = 1で最高の精度を与えますか?
私はテキスト(つぶやき)の分類を実行するためにWeka's IBkを使用しています。私はトレーニングとテストのデータをベクトル空間に変換しています。テストデータの分類を実行するとき、最良の結果はK = 1から得られます。訓練データとテストデータは互いに分離されています。なぜK = 1が最良の精度を与えるのですか?KNNはK = 1で最高の精度を与えますか?
ベクトルを使用しているため、だからk=1
で近似する値(k=1
の場合)は、共通クラスの場合よりも重要ですk=n
(例:k=5
)
使用しているベクトル空間はどのくらいですか? nグラムカウント? – Aaron
私はWekaを通してベクトル化し、Bigramをトークナイザとして使用しています。 – Chechi