私は多くのオープンソースのNLPツール(主にOpenNLP)を見てきましたが、ダイアログの開始と終了を検出するタスクを自動化するものはありません。散文のダイアログセクションの開始と終了を検出
文章検出ツールは、完全な文章の境界を見つけます。トークナイザは正確に句読点をトークン化しますが、開始と終了はまだ検出されません。私は、ダイアログの検出が想定される多くの学術論文(such as)を読んだ。しかし、これを汎用ダイアログの検出として自動化するツールはありません。
例えば、このようなテキスト:
"I am happy," she said.
は、 "私は幸せです" ダイアログのように定義しておく必要があります。
(最初の段落の末尾には閉じ引用符がない場合でも)すべてのものをダイアログとして指定する必要があります。また、ダイアログを指定する方法が奇妙です。このようなダッシュのように:
They were walking when Joe spoke up.
--I really like walking.
プラス、多くの場合、内部ダイアログは、次のようなイタリック体で表記されます。
Joe walked down the street. *I really hope I don't get hit by a bus.*
このようなダイアログのセクションを検出することができますNLPのツールはありますか?または、私が見逃したOpenNLPでこれを行う方法?
私はこれが既存のツールがあるという標準的な作業ではないということは間違いないと思います。 – Aaron