2012-04-18 30 views
-1

私はテキスト分類について読んでおり、分類に利用できるいくつかのJavaツールを見つけましたが、私はまだ疑問に思っています。文章分類(分類)

文章分類に重点を置くツールはありますか?

+1

テキストを1つの文を含む複数のテキストに分割するとどうなりますか?次に、テキストの分類を使用することができます:) – Thomas

+1

うわー、これは良いアイデアです。テキスト分類のための同じツールが文分類のためにも使用できます! –

+0

「テキスト」は、単語からなる限り、単一の単語から小説までを総称したものです。 – mbatchkarov

答えて

5

「テキスト分類」と「センテンス分類」の間には正式な違いはありません。結局のところ、文はテキストの一種です。しかし、一般に、人々がテキスト分類について話すとき、IMHOは、エッセイ、レビュー、またはスピーチのようなより大きいテキスト単位を意味する。政治家のスピーチを民主党や共和党に分類するのは、ツイートを分類するよりはるかに簡単です。インスタンスごとにたくさんのテキストがある場合は、各トレーニングインスタンスを絞って、あなたに与えることができるすべての情報を把握する必要がなくなり、素朴なベイビーモデルからかなり良いパフォーマンスを得ることができます。

文章のコーパスに既製のwekaクラシファイアを投げた場合、基本的に必要なパフォーマンス番号が得られないことがあります。 POSタグ、解析木、語順、ngramなどを使って、文中のデータを増やす必要があるかもしれません。作成時間、作成場所、文章作成者の属性など、関連するメタデータも取得する必要があります。正確に何を分類しようとしているのですか?あなたのために機能する機能は、手元の問題に直感的に意味を持たせる必要があります。

+0

ありがとうadi92、私はこのモデルを適用するために従うことができる詳細なチュートリアルがあります –

+0

機械学習タスクには2つの部分があります - 1)正しいフィーチャ、すなわち各トレーニングインスタンスを記述する数字ベクトル)2)すべての特徴ベクトルを用いてモデルを訓練する。あなたのアドバイスは、フィーチャの選択(つまりポイント1)に関するもので、使用するモデルについては何もありませんでした。あなたがモデルを念頭に置いていなければ、Naive Bayesは良いスタート地点になります。私にとっては難しいことですが、あなたがすでに知っている可能性のあるML、数学、プログラミング、そしてあなたが働いている時間の制約を知らなくても、チュートリアルをお勧めします。 –

+1

私はちょうど周りのグーグルで、Naive Bayesが意味するものにこの非常に基本的なイントロを見つけたhttp://bionicspirit.com/blog/2012/02/09/howto-build-naive-bayes-classifier.html –