データフレームdf1からインスタンスを抽出しました。そのインスタンスがPysparkの別のデータフレームdf2にあるかどうかを確認したいと思います。それに直面する方法はありますか?例えばインスタンスがPysparkのデータフレームにあるかどうかを確認する方法はありますか?
:
インスタンス:
+------+------+------+
| Atr1 | Atr2 | Atr3 |
+------+------+------+
| 'A' | 2 | 'B' |
+------+------+------+
DATAFRAME:
+------+------+------+
| Atr1 | Atr2 | Atr3 |
+------+------+------+
| 'C' | 1 | 'B' |
+------+------+------+
| 'D' | 2 | 'A' |
+------+------+------+
| 'E' | 2 | 'C' |
+------+------+------+
| 'A' | 2 | 'B' |
+------+------+------+
この方法で、私は、インスタンスがデータフレーム(4行目)であるため、真取得したいです。
ありがとうございました。
あなたの質問を正しく理解しているかどうかわかりませんが、['except'](https://spark.apache.org/docs/latest/api/java/org/apache/)のようなものをお探しですか? spark/sql/Dataset.html#except-org.apache.spark.sql.Dataset-)? – philantrovert
私はそれ以外のものを探しています。つまり、インスタンスがデータフレーム内にあるかどうかを私に知らせるものです。私はより良い理解のために私の質問を編集します。 – jartymcfly
'instance.except(df).take(1).isEmpty'を試しましたか? – philantrovert