OpenNLPはトレーニングの一環としてHTMLタグを使用できますか？

プレーンテキストに変換されたhtmlドキュメントを使用してTokenNameFinder用のトレーニングセットを作成していますが、精度が低く、トレーニングの一部としてHTMLタグを使用したいと考えています。太字の単語、異なるマージンサイズの文章。 OpenNLPはこれらのタグを受け入れ、使用してルールを作成しますか？これらのタグを使用して精度を向上させる別の方法はありますか？OpenNLPはトレーニングの一環としてHTMLタグを使用できますか？

出典

2012-04-10 Shyba

OpenNLPを訓練するためにHTMLタグを使用することで何が意味するかは不明です。列入力が注釈付きトークン化の文です：あなたは注釈を必要とする標準ツールを使用してOpenNLPモデルを訓練するために

<START:person> Pierre Vinken <END> , 61 years old , will join the board as a nonexecutive director Nov. 29 . 
Mr . <START:person> Vinken <END> is chairman of <START:company> Elsevier N.V. <END> , the Dutch publishing group .

は、この規則に従います。アノテーションはXML標準に準拠していないことに注意してください。

トレーニングに使用するHTMLドキュメントに注釈を直接埋め込むことができます。それは追加の文脈でクラシファイアを助けるかもしれませんが、私はそれについての実験的な結果を読んだことはありません。

トレーニングデータはトークン化する必要があります。単語と句読点の間には、テキスト要素とhtmlの間だけでなく、空白も含める必要があります。

<p> <i> Mr . <START:person> Vinken <END> </i> is chairman of <b> <START:company> Elsevier N.V. <END> </b>, the Dutch publishing group .

出典

2012-04-11 01:21:05 wcolen

ありがとうございます！それはまさに私が望んでいたものです。今、HTMLタグで精度をテストします。私の列車入力はすでにトークン化されています。 – Shyba

OpenNLPはトレーニングの一環としてHTMLタグを使用できますか？

答えて

関連する問題