2017-05-18 8 views
0

私はSparkRを使用して、Rを含むいくつかのプロジェクトとそのテクノロジスタック内でのスパークを処理しています。関数値を含む列をSparkRでデータフレームをSparkに追加

私は、検証関数から返されたブール値で新しい列を作成する必要があります。私は長さの異なる2つのデータフレームを比較する必要があるときに問題がある

sdf1$result <- sdf1$value == sdf2$value 

:私は次のようにスパークデータフレームと一つの式で簡単にこの仕事をすることができます。

sdf1およびsdf2のデータフレームを関数で操作し、値を新しい列sdf1に割り当てる最も良い方法は何ですか?最小長がsdf1sdf2の列を生成するとします。

+0

'sdf1 $ result < - sdf1 $ value == sdf2 $ value'のような論理演算は、長さの異なるベクトルに対しては無効です。あなたは何をしようとしていますか? –

答えて

0

長さの異なるデータフレームがある場合は、2つのデータフレーム間の値の整列方法を決定する列があることを論理的に前提としています。これらの列の2つのデータフレーム間で結合を実行し(SparkR :: merge/SparkR :: joinを参照)、比較演算を行って結果のデータフレームに新しい列を作成する必要があります。

関連する問題