0

テキストをカテゴリに分類しようとしています。私は9つのカテゴリを持っていますが、私が持っている与えられた文章は、より多くのカテゴリに分類することができます。私の目的は、文章を取り、各文章の業界を見つけることです。私の訓練セットには「ポルノ」カテゴリがなく、「財務」に分類されたポルノ資料を持つ文章がありません。マルチクラステキスト分類:入力がクラスと一致しない場合の新しいクラス

文章をクラスに分類できるかどうか、またそのテキストを分類できない印刷だけではない場合は、分類器に確認してもらいます。

私はTf-idfベクトル化ツールを使用して文章を変換してから、データをLinearSVCに送ります。

誰でもこの問題を解決できますか? 誰かが私に有用な資料を教えてもらえますか?

答えて

0

最初に、「ポルノ」文書が「財務」として分類されている問題は、ここでの他の質問とは完全には関連していないようです。今私は主な質問に答えよう。

9つのカテゴリのデータがありますが、実際のドキュメントユニバースが大きいという設定です。問題は、あなたが前に特定のデータポイントのようなものを見たことがないと判断することです。これは分類よりも外れ値や異常検出に似ているようです。

さらに進めていくためには、バックグラウンドを読んでおく必要がありますが、始めるにはいくつかのポイントがあります。使用する1つの戦略は、新しい文書がコレクション内にある他の文書と「類似している」かどうかを判断することです。考え方は、異常値が「通常の」文書に似ていない可能性が高いということです。これを行うには、文書の類似性を確実に測定する必要があります。あなたが使用できる可能性のある方法の

概要:

  • 文書の良い表現を検索し、TF-IDFベクトル、またはより良いと言います。
  • コレクション内の文書にベンチマークを行います。各文書について、「良さ」スコアは、コレクション内の他のすべての文書との最も高い類似度スコアである。 (代替として、いくつかのフォールトトレランスのためにk番目に高い類似性を使用することができます)。
  • 新しい文書があれば、同様の方法でその良さスコアを測定します。
  • 新しいドキュメントは、善行スコアの点で他のドキュメントとどのように比較されますか?非常に低い良さスコアは外れ値の兆候です。

さらに読み取り:テキスト表現との類似度計算のための技術である異常検出

  • LSA

  • 関連する問題