2017-09-05 21 views
1

私はopennlpを使用してツイートを分類するためのモデルを訓練しようとしています。私の質問は、私は私がモデルのトレーニングや、私がサニタイズを実行せずに、直接つぶやきを使用する必要があるため使用していますつぶやきにトークン化、ストップワード除去などを行う必要があるのですか?NLP分類トレーニングモデル

+0

何あなたのモデルは達成しようとしていますか? – TrnKh

答えて

0

それは本当にあなたが訓練しているかに依存します:

  • あなたのアルゴリズムが単純なテキストを受け取るように設計され、その上に機械学習技術を使用する前に、それは自分自身ですべての簡素化を行う場合は、のペアを提供する必要がありますあなたはちょうど私があなたのモデルは、機能の特定のタイプで動作するように起こっている場合は、あなたのケースでトークン化と言うでしょうブラックボックスをtrianingと単語を茎している場合タイプ
  • は、そうでなければ、とても
  • を提供し、この種のデータで訓練する必要があります
関連する問題