2016-11-01 18 views
2

私の割り当てのためには、以下を行う機械学習プログラムを作成する必要があります。テキスト分類/機械学習:「デフォルト」カテゴリも必要ですか?

入力として、プロジェクトは主に橋と水路の建物計画(PDFテキスト)を取得します。機械学習プログラムは、そのPDF内のすべてのセンテンスをサンプル(そのセンテンス内の単語はフィーチャ)とみなし、ハードウェア関連およびソフトウェア関連のカテゴリのいずれかですべてのサンプル/センテンスを分類する必要があります。 (私はTF-DIFと組み合わせてNaive Bayesアルゴリズムを使用しています)。

しかし、あなたが想像しているように、ハードウェアやソフトウェアに関係のない無関係な文章もたくさんあります。私は3つのカテゴリーを合計するために、「デフォルト/無関係」という別々のカテゴリーを作成する必要がありますか?あるいは、2つのカテゴリーだけを保持し、それらの確率に基づいて分類する方が良いでしょうか?例えば;文章は0.6でハードウェアとして分類され、それを無視します。しかし、結果が0.8以上であれば、それをハードウェアとして分類します。

答えて

1

あなたは私は1つの例で理由を説明します、あなたのトレーニングセットに無関係な文章を使用する必要があります:あなたは3クラス分類問題を持っている場合は、この出力を得ることができ

: 無関係な95% ハードウェアの4% ソフトウェア1%

ハワイウェアである可能性は、ソフトウェアの可能性の4倍です。しかし、あなたは明らかに無関係を選択します。

あなたは2つのクラスのデータセットを使用している場合は、この出力を取得します: ハードウェア80% ソフトウェア20%

ハードウェアであることの働かが再びソフトウェアであることの4倍働かですが、両方の割合が100を合計しなければなりません%分類器は両方の可能性が全体の大域であると考えるからです。

次の2つの異なるオプションがあります。

1から3クラス分類問題(ハードウェア、ソフトウェア、無関係)

2から2クラス分類問題を持つ2つの分類:

分類子1 - >をポジティブ・クラスのハードウェア、陰性クラス:ソフトウェア+無関係

分類子2 - >ポジティブ・クラスのソフトウェア、負CLAS:ハードウェア+無関係

+0

あなたの説明をありがとう!私は無関係の文章をカバーする特別なカテゴリーを作っていきます。 もう1つ質問があります。私が文章を分類するとき、時にはそれをハードウェアとして分類するのか無関係に分類するのか本当に疑問に思うが、私は通常、無関係に少し傾いている。私はトレーニングセットでこれらの種類の文章をカバーすべきですか?あるいは、私はトレーニングセットでこれらの疑わしい文章を使うべきではありませんか? – user3656099

+0

あなたは幸せです。基本的な考え方は、データセットには、将来的に良い確率を得るために必要なHW、SW、無関係な文章の割合が含まれていなければならないということです。カテゴリについてわからない文については、不確実性に対処できるアルゴリズムがいくつかありますが、それらは扱いがより複雑です。私の意見では、そのような文章の将来の分類を気にしない場合は、それらを訓練セットから削除し、無関係として分類することを前提とする場合は、無関係ラベルを使用してトレーニングセットに含めます。 – Rob

+0

ありがとう!私はそのような文章をトレーニングセットに入れないと思う。 私は、あなたがすべてのカテゴリについて同じ量の訓練サンプルを取得する必要はないと他の人が言っているのを見てきました。彼らは、スプレッドが実際のデータと同じであれば問題ないと言います。私は、SWのカテゴリが非常に少ない(約70%は無関係、25%はハードウェア、5%はソフトウェア)と聞いて喜んでいました。だから、私は本当にすべてのカテゴリのサンプルの同じ量を取得しようとする必要がありますか? http://stackoverflow.com/questions/39444786/how-to-create-training-data-for-text-classification-on-4-categories – user3656099

0

各方法は、使用するトレーニングデータの量によって機能します。現在、私は7つのカテゴリを使用していますが、本質的に、文章による文章、文章による似た作業を行う大規模なプロジェクトに取り組んでいます。私は7つのラベルを使用していますので、無関係なバケツはありません。私は発見結果を提示するときにスレッシュホールドを使用しているので、0.75以上の確実性があればうまくいきます。 「無関係」なバケツを使用する際の問題は、無関係なものを訓練しなければならないことです。これは、膨大な多様なデータセットになる可能性があります。だからあなたの確率のオプションと一緒に行く。