インスタンスのように:pysparkのjoin関数を使って2つの鍵で2つのrddを結合できますか?
rdd1 = [('magnus', 'nordea', 13000), ('Erik', 'nordea', 13000), ('Ola', 'nordea', 19000), ('rohit', 'nordea', 23030)]
rdd2 = [('magnus', 'jpmc', 14000), ('Erik', 'jpmc', 2100), ('Ola', 'jpmc', 18400), ('rohit', 'jpmc', 25000)]
rdd1.join(rdd2).collect() gives me :
[('Ola', ('nordea', 'jpmc')), ('Erik', ('nordea', 'jpmc')), ('rohit', ('nordea', 'jpmc')), ('magnus', ('nordea', 'jpmc'))]
上記RDDその量値を失う:(
必要な出力:
[(('Ola','nordea'),13000),
(('Ola','jpmc'),14000),
(('Erik','nordea'),13000),
(('Erik','jpmc'),2100),
(('rohit','nordea'),23030),
(('rohit','jpmc'),25000),
(('magnus','nordea'),13000),
(('magnus', 'jpmc'),14000)]
その上の任意の提案や、私が参照すべきかの機能を?
へようこそSO。 – desertnaut