2011-11-15 7 views
7

私はテキスト分類の問題に取り組んでいます。私は単語の集まりをカテゴリに分類しようとしています。はい、分類に利用できるライブラリがたくさんありますので、使用することを提案してください。テキストカテゴリに分類する

私が実装したいことを説明しましょう。言葉の

一覧(たとえば取る):カテゴリーの

  • 言語
  • C-シャープ
  • 一覧をプログラミング

    1. javaの
      1. javaの
      2. C-シャープなど、ここで

      我々はセットを育成します:カテゴリ1にマップをプログラミングカテゴリ1. javaの

      1. Javaのマップ。 java
      2. プログラミングはカテゴリ2.c-sharpにマップします
      3. カテゴリ2.C-シャープ

      にカテゴリ1.javaに210の

    2. 言語マップカテゴリ2.C-シャープ
    3. 言語マップ
    4. C-シャープマップは今、私たちは句「最高を持っていますJavaプログラミングブック単語のリスト」という言葉以下の所与のフレーズから 当社に一致している 『』:をプログラミング

      1. javaの

      「プログラミング」には2つのマップされたカテゴリ「java」&「cシャープ」がありますので、一般的な単語です。

      "java"はカテゴリ "java"にのみマップされます。

      だから、フレーズのための私たちの一致したカテゴリは、「Javaの」

      ですこれは、私の心に来たものです。このソリューションの罰金ですが、それを実現することができる、ご提案、私は行方不明です任意のもの、欠陥は何ですか

    +0

    これは問題ですが、これはうまくいくでしょうか、これを実装しようとすると時間を費やすべきでしょうか? –

    答えて

    4

    これはもちろん実装できます。適切なデータセット(JavaとC#プログラミングの書籍のタイトル)にNaive BayesクラシファイアやリニアSVMを訓練する場合は、「Java」という用語をJava、「C#」、「.NET」という用語をC# 、そして両方を使って "プログラミング"する。すなわち、Naive Bayes分類器は、データセットが均等に分割されている場合、「プログラミング」のような一般的な用語に対して、JavaまたはC#のおおよその確率を学習する可能性があります。

    +0

    +1 1000の異なるカテゴリのテキストを分類しようとしている場合はどうすればいいですか...まだNaive Bayesの分類子は良い選択です...テスト中のテキストは100種類の異なる結果を生成できます... 。 – Wazzzy

    0

    可能であれば、「プログラミング集団知能」という書籍の「文書フィルタリング」の章の「Naive Classifier」の節を読んでください。例はPythonで書かれていますが、私はそれがあなたにとって大きな問題ではないことを願っています。

    2

    これを実装する簡単な方法は、まっすぐなLucene(または任意のテキストインデックスエンジン)を使用することです。すべての "java"例と "c#"例を持つ別のドキュメントを1つ作成し、両方のインデックスに追加します。新しい文書を分類する、または文書内のすべての用語を分類し、索引に対して照会を実行し、最も高いスコアを持つカテゴリーを取得する。

    関連する問題