1
同じオブジェクトの2つのJavaRDDがあるので、データを1つにまとめる必要があります。 これらは次のとおりです。スパーク:2つのJavaオブジェクトRDDを1つに結合する
ドメイン
public class User {
String name;
String email;
String profession;
Integer age;
// constructor
// setters and getters
}
RDD 1
User user1 = new User ("Name", "[email protected]");
User user2 = new User ("Name2", "[email protected]");
List<User> userList = new ArrayList<>();
userList.add(user1);
userList.add(user2);
JavaRDD<User> leftUserJavaRDD = sc.parallelize(userList);
RDD 2
User user3 = new User ("[email protected]", "Software Engineer", 26);
User user4 = new User ("[email protected]", "Lawyer", 35);
List<User> userList2 = new ArrayList<>();
userList.add(user3);
userList.add(user4);
JavaRDD<User> rightUserJavaRDD = sc.parallelize(userList2);
私は、一般的な電子メールアドレスを持つ2つのRDDを組み合わせたいです。私は期待したい 組み合わせRDDは次のとおりです。
User user1and3 = new User (
"Name",
"[email protected]",
"Software Engineer",
26);
User user2and4 = new User (
"Name2",
"[email protected]",
"Lawyer",
35);
は、どのように私はJavaを使用してスパークでこれを行うことができますか? union
とcartesian
を試しましたが、うまくいきませんでした。