RSSとAtomファイルの解析時にSAXに問題が発生しました。彼によると、Item要素からのテキストがアポストロフィやアクセント付きの文字で切り捨てられているかのようです。エンコードにも問題があるようです。Saxの解析とエンコーディング
私はSAXに試してみましたが、私は切り捨てを行っていますが、それ以上は掘り下げることができませんでした。誰かがこれに前に取り組んでいるなら、いくつかの提案を感謝します。
これはContentHandlerの中で使われているコードです:
public void characters(char[], int start, int end) throws SAXException {
//
link = new String(ch, start, end);
編集:私はJavaはUnicodeで動作します知っているようにエンコードの問題は、バイト配列に情報を格納する原因である可能性があります。
DOM解析は遅く、メモリが集中するため、ほとんどの人はSAXを使用します。しかし、もし文書構造が複雑であれば、SAXの構文解析は非常に難しくなりますが、SAX解析が困難または低すぎると、vtd-xmlは最高の効率性とメモリ使用量の組み合わせに最適です。 –