私はSpark 2.1でSpark MLlibのFP-Growthを使いたいと思っています。groupBy後にFP-Growthをデータセットに適用する方法は?
私のデータは2列だけitem_group
とitem
です。
は、私は、次の試してみましたが、それは動作しません:
sc = SparkSession.builder.appName("Assoziationsanalyse").getOrCreate()
hiveCtx = SQLContext(sc)
input = hiveCtx.sql("""select * from bosch.input_view""").
groupBy("item_group").
agg(collect_list("item")).
alias("items").
rdd.
map(lambda x : x.items)
model = FPGrowth.train(input, minSupport=0.2, numPartitions=10)
あなたのデータセットを考えると、item_groupは一意であるようです。あれは正しいですか?この特定の場合、 'groupBy' +' collect_list'はFPGrowthが期待する配列列を作成する単純な変換になります。 –
'item_group'はショッピングカートを表しています。上記の表では、偶然にも各item_groupが一度だけ表示されています。 –
今後の参考になるよう、より詳細なデータセットを貼り付けることはできますか?データセットを貼り付けてください(スクリーンショットではありません)。 –