私は、自動化された事実検査分類器を構築するためのプロジェクトを開始していません。次の手順に疑問があります。肯定的な文章のみを使った分類訓練
私は〜1000文のデータベースを持っていますが、それぞれが事実検査のポジティブです。監視された機械学習モデルを構築するためには、事実チェックの候補文であるかどうかに応じて、真偽結果を含む大量のタグ付き文を用意する必要があります。それには多大な時間と労力が必要なので、最初に結果を得ることはできません。
私の考えは、すでにタグ付けされた肯定的な文章を使用して、それらにPoSタグを適用することです。これは、最も一般的な単語(例えば、盛り上げ、増加、獲得)とポストタグ(過去/現在の時制、時間と数字の動詞など)のようなパターンを特定する興味深い情報を私に与えるだろう。
私は、新しい未分類の文を分析するために重みを割り当てることを考えています。問題は、体重割り当てが私によって「経験則的」に行われることです。より洗練された方法で確率を割り当てるいくつかのモデルを訓練するためには、PoSタグャーの結果を使用するのが最善でしょう。
これを達成する方法があれば、私にいくつかの指針を教えてください。
私はMaximum Entropy Classifiersと統計パーサーについて読んだことがありますが、それらが正しい選択であるかどうかは本当に分かりません。
編集(私はより多くの詳細を与える方が良いだろうと思う):
は、POSタガーとの文章は私がそれらをフィルタリングすることができ、私はそれらの一つ一つについてのいくつかの有用な情報を提供します解析し、それらを重み付けカスタムメトリックを使用して例えば
:
5年前よりも貧困で百万より多くの人々がある - 実際にチェック候補文の> indicatives:現在形、数字と日付で動詞は、比較(より)。
我々は、次の年3%でGDPが増加します - はありません実際のチェック候補文の> indicatives:それは将来的に緊張します(予測のいくつかの並べ替えを示す)
Breck、ありがとうございました。私は、PoSビットの説明に役立つ情報を追加しました。私はあなたがそのアプローチについて何を考えているか知りたいと思います。ちなみに、私はあなたのアドバイスをプロジェクトに適用しようとしています。 – Rod0n
機能としてPOSタガーを試しても問題ありません。あなたの直感に基づいて働くことができます。 –