0

MLの最初のステップ、具体的にはテキストセンチメント分析のための分類子を使用しています。私のアプローチは、通常の80%列車のデータセットと20%のテストを行うことです。訓練されたモデルを持ち、新しい機能が現れたときに生産環境で進める最善の方法は何ですか(最初のデータセットにはテキストの新しい単語はありません)。分類モデルの新機能の扱い

答えて

0

分類タスクでは、すべての機能を列車の時間に表示する必要があり、新しい機能を後で予測段階に追加することはできません。あなたの問題のために、ステミングまたはLemmatizingを使用することができます。それとも、この章では、有用である可能性

を訓練された文書の数が多いとLDAまたはWord2Vecような何か:あなたが記述しているhttps://nlp.stanford.edu/IR-book/html/htmledition/stemming-and-lemmatization-1.html

0

問題は、一般的に表示される「語彙のうち」(OOV)単語として知られていますテストセットがトレーニングセットに含まれていません。伝統的な手法は、各OOVワードを「UNKNOWN」などの特別なトークンで表現し、実際にはそのデータをトレーニングデータに含めることです。このアプローチは、JurafskyとMartinによる "Speech and Language Processing"のSection 4.3に詳しく説明されています。

最近のアプローチはWord2Vecを使用することです。これはニューラルネットワークで実際にはadvanced topicです。

関連する問題