でカバーされたテキスト:各<テキスト>の各<文>について要素オフセットと私たちは、次のようなPCDATA要素を含むXMLファイルを処理する必要がdom4jの
<corpus id="c01">
<text id="t01>
<sentence id="s01">Mary <instance id="i01">had</instance> a <instance id="i02">lamb</instance>.</sentence>
<sentence id="s02">...</sentence>
...
</text>
...
</corpus>
は、我々はデータ構造を移入する必要がありますセンテンスIDと、そのセンテンスによってカバーされる全文を含む。次に、それぞれ<インスタンス>に対して、インスタンスIDと、その文内の開始位置と終了位置を含むデータ構造を設定する必要があります。 (私たちは、空白が正規化されているかどうかを気にしない。)
だから、上記の例のために、私たちは基本的に必要な以下:
s.id = "s01"
s.text = "Mary had a lamb."
i1.id = "i01"
i1.start = 6
i1.end = 8
i2.id = "i02"
i2.start = 12
i2.end = 15
DOM4Jでこれを行うのいずれかの方法はありますか? Element.getText()メソッドは、子要素のテキストをスキップし、別の要素内の要素のオフセットを与えるメソッドは表示されません。 dom4jがこのタスクに適切でない場合、より良いツールは何ですか?