0

com.databricks.spark.xml形式でxmlファイルを読み込む際に、すべての行に入力ファイル名を追加しようとしています。しかし、それはファイル名のために空の列を返しています。以下はコードスニペットです。私はさまざまな方法で試してみましたinput_file_nameがspark-xmlで動作しない

sqlContext.read.format("com.databricks.spark.xml"). option("rowTag", "BO_RECORD"). load("file:///<path>/*"). withColumn("filename",input_file_name()).show()

+------------+-----------+---------------+--------+ |TicketRefund|TicketsSold|_corrupt_record|filename| +------------+-----------+---------------+--------+ | 0| 3| null| | | 0| 1| null| | | 0| 18| null| | | 0| 22| null| | | 0| 3| null| | +------------+-----------+---------------+--------+

input_file_name機能を使用していますが、com.databricks.spark.xmlを使用した場合、まだそれは、空のファイル名を返します。テキストファイルのため、通常のデータフレームのロードを行う場合、それは良い作品が

sqlContext.read.format("com.databricks.spark.xml"). option("rowTag", "BO_RECORD"). load("file:///<path>/*").select(input_file_name()).show()

。 助けてください。それは動作しません場合はたぶん

答えて

0

import org.apache.spark.sql.functions._ 
... .withColumn("filename",lit("anyFileName")). .. 

は、チェックだけでなく、ドライバのノード、すべての執行にうまく働いた機能「()input_file_name」です。

+0

こんにちは、親切に私の質問をチェックしてください。そのabout_file_name()はspark-xml処理では機能しません –

+0

申し訳ありませんが、最初のメッセージ機能パッケージには記載されていません。 – pasha701

関連する問題