私の割り当てのためには、以下を行う機械学習プログラムを作成する必要があります。テキスト分類/機械学習:「デフォルト」カテゴリも必要ですか?
入力として、プロジェクトは主に橋と水路の建物計画(PDFテキスト)を取得します。機械学習プログラムは、そのPDF内のすべてのセンテンスをサンプル(そのセンテンス内の単語はフィーチャ)とみなし、ハードウェア関連およびソフトウェア関連のカテゴリのいずれかですべてのサンプル/センテンスを分類する必要があります。 (私はTF-DIFと組み合わせてNaive Bayesアルゴリズムを使用しています)。
しかし、あなたが想像しているように、ハードウェアやソフトウェアに関係のない無関係な文章もたくさんあります。私は3つのカテゴリーを合計するために、「デフォルト/無関係」という別々のカテゴリーを作成する必要がありますか?あるいは、2つのカテゴリーだけを保持し、それらの確率に基づいて分類する方が良いでしょうか?例えば;文章は0.6でハードウェアとして分類され、それを無視します。しかし、結果が0.8以上であれば、それをハードウェアとして分類します。
あなたの説明をありがとう!私は無関係の文章をカバーする特別なカテゴリーを作っていきます。 もう1つ質問があります。私が文章を分類するとき、時にはそれをハードウェアとして分類するのか無関係に分類するのか本当に疑問に思うが、私は通常、無関係に少し傾いている。私はトレーニングセットでこれらの種類の文章をカバーすべきですか?あるいは、私はトレーニングセットでこれらの疑わしい文章を使うべきではありませんか? – user3656099
あなたは幸せです。基本的な考え方は、データセットには、将来的に良い確率を得るために必要なHW、SW、無関係な文章の割合が含まれていなければならないということです。カテゴリについてわからない文については、不確実性に対処できるアルゴリズムがいくつかありますが、それらは扱いがより複雑です。私の意見では、そのような文章の将来の分類を気にしない場合は、それらを訓練セットから削除し、無関係として分類することを前提とする場合は、無関係ラベルを使用してトレーニングセットに含めます。 – Rob
ありがとう!私はそのような文章をトレーニングセットに入れないと思う。 私は、あなたがすべてのカテゴリについて同じ量の訓練サンプルを取得する必要はないと他の人が言っているのを見てきました。彼らは、スプレッドが実際のデータと同じであれば問題ないと言います。私は、SWのカテゴリが非常に少ない(約70%は無関係、25%はハードウェア、5%はソフトウェア)と聞いて喜んでいました。だから、私は本当にすべてのカテゴリのサンプルの同じ量を取得しようとする必要がありますか? http://stackoverflow.com/questions/39444786/how-to-create-training-data-for-text-classification-on-4-categories – user3656099