"0001546"のような文字列値を持つxmlを処理する必要があります。私はdatabrics xml APIを使用してそれらをデータフレームにロードすると、実際の文字列の値をdouble型に変換しています。問題は2倍で "0001546"から1546に変更されています。これは暗黙の型キャストこれがそのように振る舞わないようにしてください。実際の価値を期待することは、そのまま扱うべきです。 私の場合は実現できないxmlの手動スキーマを指定することもできます。 csvファイルのような推論スキーマを無効にするためにdatabricsに報告されたバグが見つかりました。 これを解決するための回避策または解決策がありますか?あなたの助けに感謝。databrics spark APIを使用したxml処理のスキーマオプションの導入
0
A
答えて
0
新しいリリースで修正されるまで、これまでの戦術的な解決策が見つかりました。 私は処理したいすべてのXMLファイルを持つ入力フォルダに配置されたプレースホルダxmlファイルを作成しました。 プレースホルダーxmlファイルのidフィールドの値が<Id>x0001546</Id>
の場合、ダミーレコードに追加の 'x'文字が1つ追加されていることに注意してください。 デフォルトでは、サンプリング推論スキーマの値は1です(すべてのレコードでそれを行う必要はありません)ので、このフィールドは英数字として扱われます。後で、データフレームからプレースホルダxmlレコードを除外しました。
関連する問題
- 1. XMLファイルの特殊文字 - DOM APIを使用した処理
- 2. Qt5.5 QDomを使用したXML処理
- 3. Apache Flinkを使用したXML処理
- 4. Spark-javaとTomcatを使用した静的ファイルの処理
- 5. Kafka SparkストリーミングXML解析/処理
- 6. REST API GITソースを導入するための管理
- 7. SAX&Cybernekoを使用したXMLコメントの処理 - DOMの順
- 8. XmlPullParserを使用したXml名前空間の処理
- 9. APIからのXML出力の処理
- 10. Rally APIを使用したカスタムフィールドの処理
- 11. XSLを使用した複雑なXML処理
- 12. 処理またはArduinoを使用したSkype API
- 13. Javascriptでコールバックを使用した変数代入の処理?
- 14. プリペアドステートメントを使用した未処理の挿入クエリ
- 15. ログファイルの処理:Apache StormまたはSpark
- 16. Apache Sparkスキューされたデータの処理
- 17. 未処理のタイプAJAXを使用したエラー処理フォーム
- 18. SparkでのMysqlデータ処理
- 19. AJAXとDOMを使用したAPIを処理するドロップダウンメニュー
- 20. xslを使用してxmlを処理中のjava.lang.StackOverflowError
- 21. Numpadを使用したresignFirstResponderの処理
- 22. javascriptを使用したショートカットキーの処理
- 23. angularJsを使用したリアルタイムデータの処理
- 24. バックスラッシュを使用したデータベーステーブルエントリの処理?
- 25. asp.netを使用したエラーメッセージの処理
- 26. POSTを使用したフォームの処理
- 27. クラスタモジュールを使用したSIGTERMの処理
- 28. セレンを使用したポップアップウィンドウの処理
- 29. WatiNを使用したフラッシュボタンの処理
- 30. SonataAdminBundleを使用したsimple_arrayの処理