スタンフォードCoreNLPは、多くの一般的なヨーロッパの日付形式(c.f. Date and time notation in Europe (Wikipedia))では機能しません。ヨーロッパの日付でCoreNLP文分割を修正しました
私たちは皆、日付解析が混乱していることを知っています。特にcrazy mm-dd-yyyy format the U.S. usesです。それにもかかわらず、CoreNLPは、点であまりにも積極的に分割するため、基本的なヨーロッパの日付フォーマットを処理することはできません。しかし、日付情報は、多くの場合、例えば、
1. Die Terroranschläge am 11.
2. September 2001, einem Dienstag, waren vier [...]
:
は、CoreNLPはにこれを分割何であれ、私がしようTerroranschläge11. 2001年9月です、einemディーンスターク、ヴァーレンフィアkoordinierteFlugzeugentführungenMITanschließendenSelbstmordattentaten ... (Wikipedia)
ダイ:として
CoreNLPは、ドイツ語NLPではほとんど使用できません。この点は単にこれを序数としてマークしています。つまり、これはドイツの「2001年9月11日」の書き方です。また、ドイツ語でNotation "11. 9. 2001"が頻繁に表示され、CoreNLPは9.
が別のセンテンスであり、 "2001年9月11日"
と考えています(いくつかの方法をオーバーライドするなど)自分のルールで誤って分割された文章を再結合するパターンを定義するたとえば、[123]?\d\. 1?\d\.
は日付の典型的なもので、月は多くありません。
こんにちは、私はそれを再開することに取り組んでいます! – StanfordNLPHelp
このようなパターンで入力文字列からドットを削除するだけで済みます。しかし、それはハックです。 –
私はこのようなことを実験しています。文字のオフセットをそのまま維持するために、スペースと置き換えることです。しかし、これがCoreNLPによってサポートされていれば、それはより良いでしょう。 –