2016-07-21 11 views
1

私は機械学習を使って文章にラベルを付けようとしています (それぞれの文章は1つのラベルで、文章は互いに独立していると仮定します)。 このケースでは線形CRFモデルは大丈夫だと思っていましたが、いくつか質問があります。CRF(条件付きランダムフィールド)を使用して文全体にラベルを付けることはできますか?

私はCRF++を使ってみました(私が見た他の実装には類似のフォーマットがあるようです)。 文を入力として使用しますが、出力ラベルは各 トークンに割り当てられます。文全体に単一のラベルを使用する方法は? (私は考えハックは唯一のテストデータにドットと全文のための出力ラベル としてそれを治療するための重要な ラベルを割り当てることであろう。)

どのように異なる長さの文章を使用することができますか? トレーニング構成では、現在のトークンを分析する際に考慮するトークンを指定する必要があります。 しかし文章は のトークンを大量または少量持つことができます。文全体からすべてのトークンを使用したい場合は、 (多かれ少なかれ)を使用してください。

投稿者this question投稿者: 私はしようとしていることが可能です(シーケンス全体の単一のラベル)可能性がありますが、私はそれのためにトレーニングデータをフォーマットする方法を知らない。

+0

文をトークンに分割し、別々のものではなく1行に置き、対応する機能を追加してからラベルを追加します。たぶんそれは特定のパターンを見つけることができます。 – arjun

答えて

0

あなたは仕事に間違ったツールを使用していると思います。文全体を分類するために、Facebookの高速テキストのようなものを使ってみることができます。

https://github.com/facebookresearch/fastText

0

Ashemahは、多分あなたは間違ったツールを使用している、言ったように。配列にラベルを付ける場合は、通常CRFが使用されます。単語のシーケンス、または一連の文章であってもよい。しかし、文章が互いに独立していると仮定すると、それぞれの文章を独立して見たいと思うかもしれません。したがって、あなたの仕事はシーケンスラベリングではなく、簡単な分類です。そのためには、SVM、Naive Bayes、kNNなどの他のいくつかのモデルを使用することができます。

関連する問題