2016-10-17 17 views
0

私は、自動化された事実検査分類器を構築するためのプロジェクトを開始していません。次の手順に疑問があります。肯定的な文章のみを使った分類訓練

私は〜1000文のデータベースを持っていますが、それぞれが事実検査のポジティブです。監視された機械学習モデルを構築するためには、事実チェックの候補文であるかどうかに応じて、真偽結果を含む大量のタグ付き文を用意する必要があります。それには多大な時間と労力が必要なので、最初に結果を得ることはできません。

私の考えは、すでにタグ付けされた肯定的な文章を使用して、それらにPoSタグを適用することです。これは、最も一般的な単語(例えば、盛り上げ、増加、獲得)とポストタグ(過去/現在の時制、時間と数字の動詞など)のようなパターンを特定する興味深い情報を私に与えるだろう。

私は、新しい未分類の文を分析するために重みを割り当てることを考えています。問題は、体重割り当てが私によって「経験則的」に行われることです。より洗練された方法で確率を割り当てるいくつかのモデルを訓練するためには、PoSタグャーの結果を使用するのが最善でしょう。

これを達成する方法があれば、私にいくつかの指針を教えてください。

私はMaximum Entropy Classifiersと統計パーサーについて読んだことがありますが、それらが正しい選択であるかどうかは本当に分かりません。

編集(私はより多くの詳細を与える方が良いだろうと思う):

は、POSタガーとの文章は私がそれらをフィルタリングすることができ、私はそれらの一つ一つについてのいくつかの有用な情報を提供します解析し、それらを重み付けカスタムメトリックを使用して例えば

5年前よりも貧困で百万より多くの人々がある - 実際にチェック候補文の> indicatives:現在形、数字と日付で動詞は、比較(より)。

我々は、次の年3%でGDPが増加します - はありません実際のチェック候補文の> indicatives:それは将来的に緊張します(予測のいくつかの並べ替えを示す)

答えて

4

とき真この状況が頻繁に発生します文章は比較的稀です。

1)最後に分類するものに似た文のコーパスを入手してください。コーパスには真と偽の両方の文が含まれます。それらを虚偽または非事実のチェックとしてラベル付けします。私たちは、たとえそうでないと分かっていても、彼らはすべて偽であると仮定しています。可能であれば、作成された真偽データの比率をほぼ実際の分布にすることが望まれます。したがって、実際のデータに10%が当てはまる場合、想定される誤ったケースは1,000個の真実に対して90%または9,000です。あなたが配布を知らない場合は、それを10倍以上にしてください。

2)クロス検証を使用してデータの最大エントロピーを計算する。保留中のデータに高いスコアリングの誤検出がないか追跡します。

3)偽陽性を再注釈することは、おそらく本当の陽性である可能性がある点で今までのところでは意味があります。これはうまくいけばあなたの仮定された偽データをきれいにするでしょ

4)分類子を改善しなくなるまで、このプロセスを実行し続けます。

5)「ファクトチェックワード」を取得するには、フィーチャエクストラクタがあなたのクラシファイアに単語を供給しているかどうかを確認し、真のカテゴリに積極的に関連付けられているフィーチャを探します。適切なロジスティック回帰クラシファイアは、何らかの方法で。私は確かにLingPipeを使用しています。

6)PoS(Part of Speech)がどのようにこの問題を解決するのか分かりません。

この方法では、トレーニングデータとはまったく異なる実際のインスタンスを見つけることはできませんが、それほど効果的ではありません。

Breck

+0

Breck、ありがとうございました。私は、PoSビットの説明に役立つ情報を追加しました。私はあなたがそのアプローチについて何を考えているか知りたいと思います。ちなみに、私はあなたのアドバイスをプロジェクトに適用しようとしています。 – Rod0n

+1

機能としてPOSタガーを試しても問題ありません。あなたの直感に基づいて働くことができます。 –

関連する問題