テキスト分類における特徴抽出に必要な語彙セットの定義に関する質問があります。 実験では、次の2つのアプローチが考えられます。テキスト分類における語彙サイズの定義
1.テストデータの単語がテスト中に「不明」であると処理されないように、トレーニングデータとテストデータの両方を使用して語彙サイズを定義する。
2.訓練データからのデータのみに基づいて語彙サイズを定義し、訓練データにも含まれていないすべての単語を「未知」として扱う。
一見、より科学的な方法が第2のものです。しかし、実用的なシステムで語彙の真のサイズを知る方法はありませんが、語彙サイズをトレーニングデータに現れたサイズよりも少し大きめに設定することは問題ありません潜在的に大きな問題をカバーする。これは実際には異なる未知語を「未知数」として合計するのではなく、異なるものとして扱う点で有用です。これが実用的でない理由がありますか?
機械学習には新しくありません。大いに感謝します。