com.databricks.spark.xml形式でxmlファイルを読み込む際に、すべての行に入力ファイル名を追加しようとしています。しかし、それはファイル名のために空の列を返しています。以下はコードスニペットです。私はさまざまな方法で試してみましたinput_file_nameがspark-xmlで動作しない
sqlContext.read.format("com.databricks.spark.xml"). option("rowTag", "BO_RECORD"). load("file:///<path>/*"). withColumn("filename",input_file_name()).show()
+------------+-----------+---------------+--------+ |TicketRefund|TicketsSold|_corrupt_record|filename| +------------+-----------+---------------+--------+ | 0| 3| null| | | 0| 1| null| | | 0| 18| null| | | 0| 22| null| | | 0| 3| null| | +------------+-----------+---------------+--------+
input_file_name機能を使用していますが、com.databricks.spark.xmlを使用した場合、まだそれは、空のファイル名を返します。テキストファイルのため、通常のデータフレームのロードを行う場合、それは良い作品が
sqlContext.read.format("com.databricks.spark.xml"). option("rowTag", "BO_RECORD"). load("file:///<path>/*").select(input_file_name()).show()
。 助けてください。それは動作しません場合はたぶん
こんにちは、親切に私の質問をチェックしてください。そのabout_file_name()はspark-xml処理では機能しません –
申し訳ありませんが、最初のメッセージ機能パッケージには記載されていません。 – pasha701