2017-01-01 5 views
0

私は多くのオープンソースのNLPツール(主にOpenNLP)を見てきましたが、ダイアログの開始と終了を検出するタスクを自動化するものはありません。散文のダイアログセクションの開始と終了を検出

文章検出ツールは、完全な文章の境界を見つけます。トークナイザは正確に句読点をトークン化しますが、開始と終了はまだ検出されません。私は、ダイアログの検出が想定される多くの学術論文(such as)を読んだ。しかし、これを汎用ダイアログの検出として自動化するツールはありません。

例えば、このようなテキスト:

"I am happy," she said. 

は、 "私は幸せです" ダイアログのように定義しておく必要があります。

(最初の段落の末尾には閉じ引用符がない場合でも)すべてのものをダイアログとして指定する必要があります。また、ダイアログを指定する方法が奇妙です。このようなダッシュのように:

They were walking when Joe spoke up. 
--I really like walking. 

プラス、多くの場合、内部ダイアログは、次のようなイタリック体で表記されます。

Joe walked down the street. *I really hope I don't get hit by a bus.* 

このようなダイアログのセクションを検出することができますNLPのツールはありますか?または、私が見逃したOpenNLPでこれを行う方法?

+0

私はこれが既存のツールがあるという標準的な作業ではないということは間違いないと思います。 – Aaron

答えて

1

ドメインから独立した、これを実行するツールはありません。おそらく特定のドメインのために何かを訓練することができます。たとえば、通話記録では、A-B-A-B(その他)の構造を持つ可能性が非常に高いです。しかし、より多くの人々が対話に参加すると、事態はより複雑になります。また、正書法(一重引用符など)でこれを行うことができるかどうかは、テキスト/コーパスを構築した人々がきちんとした一貫した方法でこれを行うのに迷惑をかけるかどうかによっても異なります。

私は最近、談話の解析を行うツールつまずい:http://alt.qcri.org/tools/discourse-parser/

これは別の文にその関係を持つ文を明確に入力文書の表現である修辞構造ツリー、と呼ばれるものを提供します。私はダイアログのためにそれを試していないし、そこにパフォーマンスについては考えがありません。しかし、それは、部分的にテキストを切り詰めるという、より意味的に認識したやり方に依存しています。多分それがあなたを助けるかもしれない。このツールは、corenlp/opennlpの束と同じようにユーザーフレンドリーではなく、起動するためには(少なくとも私にとっては)かなりの手間を要します。

とにかく;おそらく(方法)あまりにも多くの情報、短い答え;私が知る限り、このためのツールを実装して使用するのは簡単ではありません。

+0

お時間をいただきありがとうございます! –

1

検索の結果、スタンフォードのNLPツールには、私が探しているものが「QuoteAnnotator」のように見えます。

関連する問題