-1

私はテキスト分類ソリューションにワードベクタを使用しています。私は、訓練セットには存在しないが、実際のユースケースには存在する同義語の場合に主に対処するために、単語ベクトルを使用しています。単語ベクトルを使うだけでは、予測精度が十分に得られません。誰でも精度を向上させるために単語ベクトルに対して行うことができるいくつかの拡張を提案できますか?ワードベクタを使用したテキスト分類の拡張

+0

Welcome to StackOverflow。ヘルプドキュメントの投稿ガイドラインを読み、それに従ってください。 [on topic](http://stackoverflow.com/help/on-topic)および[How to Ask](http://stackoverflow.com/help/how-to-ask)をここで適用してください。私たちは特定の要求に対処することができますが、不明瞭な記述で対処することはできません。あなたのデザインと使い方を見せてください。あなたが得る正確さ、期待するもの、そしてあなたのアプローチで正確さが可能であると思われる理由を示します。 – Prune

答えて

1
  • 悪い予測ケースをデバッグします。シノニム(トレーニングデータセットに含まれているもの)の埋め込み品質は良いのでしょうか?

  • など、あなたのアプリケーションと同様の内容で、大きな語彙で訓練を受けている別の埋め込みを使用し

  • は(ラベル付きデータセット)を、よりトレーニングデータを取得します。これは多くの助けになるはずです。テキスト分類には、通常、非常に大きなスペースがあります。

  • テキスト分類子を訓練するときに、埋め込みレイヤーの「訓練可能」を許可します。あなたの埋め込み層のために事前に学習された埋め込みを取得するためのword2vecトレーニングと混同しないでください。大量のラベルなしデータを使用する可能性があります。ここでは、ラベル付きデータのみを含む比較的小さなデータセットを使用しています。埋め込み層を「訓練可能」とすることは、出力層から埋め込み層に勾配を逆伝播させて埋め込みベクトルを微調整することを意味する。

関連する問題