私は "バイリンガル文書からのスクリプト識別"に取り組んでいます。 私は、ページ/ブロックをEng(クラス1)、ヒンディー(クラス2)、またはmatlabのlibsvmを使ってMixedとして分類したいと思います。問題は、私が持っているトレーニングデータが、ヒンディー語と英語のページ/ブロックのみに対応するサンプルで構成されていて、混合ページがないことです。SVMでのマルチクラス分類
私が与えたいテストデータは、混合ページ/ブロックで構成されている場合もあります。この場合、「混合」として分類されます。私は信頼スコアまたは確率値を使ってそれを行うつもりです。クラス1のprob値が閾値(例えば0.8)よりも大きく、クラス2のprob値が閾値say(0.05)よりも小さい場合、それはクラス1とクラス2に分類され、その逆も同様である。上記の2つの条件が満たされなければ、それを「混合」と分類したいと考えています。
"libsvmpredict"の3番目の戻り値はprob_valuesです。このprob_valuesを使用して、テストデータがヒンディー語、英語または混合型のいずれであるかを判断する予定です。いくつかの場所で私は "libsvmpredict"が実際のprob_valuesを生成しないことを学びました。
SVMで2つのクラスのみからなるトレーニングデータを使用して、テストデータを3つのクラス(ヒンディー語、英語、ミックスド)に分類するのに役立つ方法はありますか。
ヒンディー語のテキストが書かれていますラテン文字で?そうでない場合は、コンピュータが英語/ヒンディー文字を正しく認識して表示しているので、分類器が必要ないとは思わない。つまり、(おそらくUTF-8で)エンコードされた文字を見て、その言語を識別できます。 –
私が持っているドキュメントは、ヒンディー語/英語の本から300dpiでスキャンされたイメージです。私のプロジェクトの目的は、入力されたドキュメントイメージのスクリプトを特定することであり、識別されたスクリプトに基づいて適切なOCRに渡され、イメージはコンピュータで読める形式に変換されます。 –