CRF ++を使用して製品の文字列をさまざまな属性クラスに解析して、this questionのような製品の一致を実行しようとしています。CRF ++のテンプレートファイルとセンテンスの構文
しかし、私が問題に遭遇しているところでは、CRFは、製品文字列内の単語の順序がまだトレーニングファイルに表示されていない場合、タグを正確に予測していません。このトレーニングを使用している場合
panasonic NOUN B-BRAND
digital ADJ B-PRODUCT
monitor NOUN I-PRODUCT
17 # B-SIZE
inch # I-SIZE
:次の例では、トレーニングデータを含む
#Unigrams
U00:%x[-1,0]
U00:%x[0,0]
U00:%x[1,0]
#Bigrams
B
そして私はcrf_learn
を実行します。例として
panasonic NOUN B-BRAND
monitor NOUN B-PRODUCT
digital ADJ I-PRODUCT
17 # B-SIZE
inch # I-SIZE
は、しかし、次のとおりである。
panasonic NOUN B-BRAND
monitor NOUN I-PRODUCT
digital ADJ B-PRODUCT
17 # B-SIZE
inch # I-SIZE
は、これが私のテンプレートファイルの問題ですか、CRFは、本質的に構文制限のですか?あるいは、テンプレートファイルやトレーニングデータの列を修正して、プロダクト文字列内の単語の順序を取得/無視することはできますか?