spark javaのXML検証

検証してから平坦化する必要がある3GBのXMLがあります。私たちはSpark-Javaを使ってそれを検証して平坦化することが期待されています。展開されたデータはHiveテーブルに取り込まれます。また、妥当性検査では、悪いレコードをXMLにスローする必要があります（ソースシステムに認識させるために、Kafkaのトピックに同じレコードを書き込むことができます）。そして、悪いレコードはハイブテーブルの中に格納されるべきではありません。 com.databricks.spark.xmlに基づくフラット化は、クライアントによって推奨されません。助けてください。コードではない場合、アルゴリズムも役立ちます。spark javaのXML検証

出典

2016-09-28 manshul goel

javax.xml.validation.Validatorを使用できます。このAPIは、XMLの検証に役立ちます。

出典

2016-09-28 12:46:50 Sakalya

Validatorクラスの助けを借りて試してみました。しかし、まだXSDごとに壊れているレコードを削除することはできません。 –

答えて

関連する問題