2016-05-09 22 views
1

CoreNLPから出力されたファイルが.conllの形式になっていて、それらをAnnotationオブジェクトに逆シリアル化したいとします。 CoreNLPはCONLL-X DocumentReaderメソッドを提供して.conllファイルをAnnotationオブジェクトに変換するか、独自のDocumentReaderを作成する必要がありますか?Corenlpを使用して.conllファイルをAnnotationオブジェクトに読み込むにはどうすればよいですか?

答えて

1

TSVSentenceIteratorのように、CoNLLのような形式のTSVファイルから文章を読み込むことができます。

しかし、Annotationオブジェクトにぶら下がっているAnnotationの数は、CoNLLファイルの文字数(文字オフセットなど)よりはるかに多く、このシリアル化は無損失ではないことに注意してください。オブジェクトに注釈を付けたままにしておくと予期しない動作が発生することがあります。これは正式にサポートされているロスレスシリアル化戦略の1つではありません。

+0

私はプロジェクトをダウンロードしましたが、入力としてファイルを受け取り、TSVSentenceIteratorの注釈オブジェクトを返すメソッドを見つけることができません – Gha93

+0

ファイルを自分で読み取ってから、コンストラクタに行のリストを渡す必要があります。 –

+0

私は文章で私のファイルセンテンスを 'public static Sentence toSentence(List フィールド、List entries)'メソッドに送る必要があります。エントリの各文字列はトークン行と同等ですか? – Gha93

関連する問題