2016-09-28 11 views
0

検証してから平坦化する必要がある3GBのXMLがあります。私たちはSpark-Javaを使ってそれを検証して平坦化することが期待されています。展開されたデータはHiveテーブルに取り込まれます。 また、妥当性検査では、悪いレコードをXMLにスローする必要があります(ソースシステムに認識させるために、Kafkaのトピックに同じレコードを書き込むことができます)。そして、悪いレコードはハイブテーブルの中に格納されるべきではありません。 com.databricks.spark.xmlに基づくフラット化は、クライアントによって推奨されません。 助けてください。コードではない場合、アルゴリズムも役立ちます。spark javaのXML検証

答えて

0

javax.xml.validation.Validatorを使用できます。このAPIは、XMLの検証に役立ちます。

+0

Validatorクラスの助けを借りて試してみました。しかし、まだXSDごとに壊れているレコードを削除することはできません。 –