私はファイルをStringとして読み込み、いくつかの操作を行うためにテーブルと比較する必要があるシナリオを持っています。1つのデータフレームのスキーマを別のデータフレームに適用する方法は?
df1 = sparkContext.parallelize(Seq(1,"aa")).toDF("Col1","Col2") // file
df2 = spark.sql("select * from table")
したがって、df1は両方の列が文字列であるのに対し、df2はIntおよびStringのようなスキーマを持ちます。これは単なるサンプルです。私は選択する列がたくさんあり、各列の名前については言及していません。 df2の列スキーマをdf1に実装する方法はありますか?または、表からStringを選択することは可能ですか?例のように 、
spark.sql("select cast(* as String) from table")
ファイルから読み込んでいる場合は、databricksパッケージを使用します。パッケージは自動的にスキーマを推論し、さらに独自のスキーマを提供できます。 –
何を比較したいですか?いくつかのサンプルを与える。また、あなたが試したこととあなたの難しいことは何ですか? –