2012-04-10 10 views
1

プレーンテキストに変換されたhtmlドキュメントを使用してTokenNameFinder用のトレーニングセットを作成していますが、精度が低く、トレーニングの一部としてHTMLタグを使用したいと考えています。太字の単語、異なるマージンサイズの文章。 OpenNLPはこれらのタグを受け入れ、使用してルールを作成しますか? これらのタグを使用して精度を向上させる別の方法はありますか?OpenNLPはトレーニングの一環としてHTMLタグを使用できますか?

答えて

0

OpenNLPを訓練するためにHTMLタグを使用することで何が意味するかは不明です。 列入力が注釈付きトークン化の文です:あなたは注釈を必要とする標準ツールを使用してOpenNLPモデルを訓練するために

<START:person> Pierre Vinken <END> , 61 years old , will join the board as a nonexecutive director Nov. 29 . 
Mr . <START:person> Vinken <END> is chairman of <START:company> Elsevier N.V. <END> , the Dutch publishing group . 

は、この規則に従います。アノテーションはXML標準に準拠していないことに注意してください。

トレーニングに使用するHTMLドキュメントに注釈を直接埋め込むことができます。それは追加の文脈でクラシファイアを助けるかもしれませんが、私はそれについての実験的な結果を読んだことはありません。

トレーニングデータはトークン化する必要があります。単語と句読点の間には、テキスト要素とhtmlの間だけでなく、空白も含める必要があります。

<p> <i> Mr . <START:person> Vinken <END> </i> is chairman of <b> <START:company> Elsevier N.V. <END> </b>, the Dutch publishing group . 
+0

ありがとうございます!それはまさに私が望んでいたものです。今、HTMLタグで精度をテストします。私の列車入力はすでにトークン化されています。 – Shyba

関連する問題