HTML文書のテキスト部分にタグを付ける必要があります。私はCRF(sklearn-crfsuite)を使用する予定です。文章の境界を持たないCRFを訓練する
私の問題は、データセットを文章に分割するのが難しいということです。すべてを単一のシーケンスとして扱う文章境界のないCRFモデルを訓練できますか? CRFSuiteまたはsklearn-crfsuiteのチュートリアルでは、このことについて話しません。
文のセグメンテーションなしではできない場合は、そのようなテキストを文章に分割する方法についてのヒントはありますか?
データは、このようなものである:(私は実際のデータを共有することはできません)