2016-07-02 12 views
2

テキスト分類における特徴抽出に必要な語彙セットの定義に関する質問があります。 実験では、次の2つのアプローチが考えられます。テキスト分類における語彙サイズの定義

1.テストデータの単語がテスト中に「不明」であると処理されないように、トレーニングデータとテストデータの両方を使用して語彙サイズを定義する。

2.訓練データからのデータのみに基づいて語彙サイズを定義し、訓練データにも含まれていないすべての単語を「未知」として扱う。

一見、より科学的な方法が第2のものです。しかし、実用的なシステムで語彙の真のサイズを知る方法はありませんが、語彙サイズをトレーニングデータに現れたサイズよりも少し大きめに設定することは問題ありません潜在的に大きな問題をカバーする。これは実際には異なる未知語を「未知数」として合計するのではなく、異なるものとして扱う点で有用です。これが実用的でない理由がありますか?

機械学習には新しくありません。大いに感謝します。

答えて

2

モデルにトレーニングセットに含まれていないテストセットワード(分類モデルなど)を含めると、トレーニングセットには発生していないため、トレーニングされたモデルのウェイトはゼロになります。モデルサイズを大きくする以外の効果はありません。だからオプション2が良いです。

テストデータの変化する性質を補うために、モデルを定期的に再トレーニングする方法と、word2vecを使って表現を作成する方法と、見えない単語をそれぞれ与えたK-Nearest Neighborモデルテストセットでは、学習セットの中で最も近い単語を使用して、未知の単語の代わりにその単語を使用できるようにします。

1

実際には、nlpシステムは常に未知語を処理する必要があります。

テストデータをボキャブラリセットの一部として使用すると、テストするときにモデルにこのような状況が発生することはありません。メトリックが壊れているため、モデルに実際のパフォーマンスが表示されません。

これはナレッジディスカバリーと自然言語処理の重要な部分です。この状況を解決するために使用されたモデル、理論、および一般的な方法については、natural language processing unknown wordsをGoogleに送信できます。

未知の単語を処理するツールがほしい場合は、word2vecが役立ちます。

関連する問題