私は機械学習を使って文章にラベルを付けようとしています (それぞれの文章は1つのラベルで、文章は互いに独立していると仮定します)。 このケースでは線形CRFモデルは大丈夫だと思っていましたが、いくつか質問があります。CRF(条件付きランダムフィールド)を使用して文全体にラベルを付けることはできますか?
私はCRF++を使ってみました(私が見た他の実装には類似のフォーマットがあるようです)。 文を入力として使用しますが、出力ラベルは各 トークンに割り当てられます。文全体に単一のラベルを使用する方法は? (私は考えハックは唯一のテストデータにドットと全文のための出力ラベル としてそれを治療するための重要な ラベルを割り当てることであろう。)
どのように異なる長さの文章を使用することができますか? トレーニング構成では、現在のトークンを分析する際に考慮するトークンを指定する必要があります。 しかし文章は のトークンを大量または少量持つことができます。文全体からすべてのトークンを使用したい場合は、 (多かれ少なかれ)を使用してください。
投稿者this question投稿者: 私はしようとしていることが可能です(シーケンス全体の単一のラベル)可能性がありますが、私はそれのためにトレーニングデータをフォーマットする方法を知らない。
文をトークンに分割し、別々のものではなく1行に置き、対応する機能を追加してからラベルを追加します。たぶんそれは特定のパターンを見つけることができます。 – arjun