2017-07-17 11 views
0

HTML文書のテキスト部分にタグを付ける必要があります。私はCRF(sklearn-crfsuite)を使用する予定です。文章の境界を持たないCRFを訓練する

私の問題は、データセットを文章に分割するのが難しいということです。すべてを単一のシーケンスとして扱う文章境界のないCRFモデルを訓練できますか? CRFSuiteまたはsklearn-crfsuiteのチュートリアルでは、このことについて話しません。

文のセグメンテーションなしではできない場合は、そのようなテキストを文章に分割する方法についてのヒントはありますか?

データは、このようなものである:(私は実際のデータを共有することはできません) enter image description here

答えて

0

はい、あなたは文章の中に入力シーケンスを分割せずに訓練することができます - ちょうどすべてのために大規模なシーケンスを使用しています。たとえば、HTMLページの場合はhttps://github.com/scrapinghub/webstructとなります。

文中の分割シーケンスは追加情報(ハード境界)を提供しますが、CRFはそれなしで動作することができます。参照:https://stats.stackexchange.com/questions/197291/sequence-length-when-training-a-conditional-random-field-crf

関連する問題