2016-08-09 9 views
0

チャンク化または浅い解析は、文を構文的構成要素またはチャンクのシーケンス、すなわち言語特性に基づいてグループ化された隣接ワードのシーケンスにセグメント化する。これは、自然言語を解析するための効率的で堅牢なアプローチと呼ばれ、完全な解析の一般的な代替案ですが、シナリオチャンクは完全な解析を行うより適切な方法です。どのようなシナリオで、完全な解析の代わりにチャンクを使用しますか?

答えて

1

これは私の個人的な偏見以上のものではありませんが、何らかの理由で名詞や動詞のフレーズを検出する必要がある場合は、チャンク化する方がよい場合があります。たとえば、ドキュメントのクラスタリング、トピックのタグ付け、または単純にキーワードの識別のために、NPまたはVPチャンク処理で十分です。また、ツリーバンクが存在しない言語で作業する必要がある場合は、チャンクに戻すこともできます。

チャンク化は、通常、深い解析よりも数倍速いという利点がありますが、現代(パーセプトロン/ニューラル)パーサーは、5〜10年前の深い解析者よりもはるかに高速です。しかし、これまでのところであっても、深い構文解析は長い文章で詰まる可能性があります。明らかに、深いパーサーを訓練するためにツリーバンクに注釈を付けるのは、NP/VP句に注釈を付けるだけでなく、英語以外のテキストで句を検出する必要がある場合にルールベースのチャンクを構築するだけでもコストがかかります。

関連する問題