0
私は、ウィンドウ化されたシーケンスを表すリストにサイズ3のタプルのセットを持っています。 私が必要とするのは、3番目のものを得るためにpyspaskを使うことです(タプルの2つの最初の部分を与えられます)。PrefixSpanシーケンス抽出の誤解
私は、その頻度に基づいて3つの要素のシーケンスを作成する必要があります。
data = [[['a','b','c'],['b','c','d'],['c','d','e'],['d','e','f'],['e','f','g'],['f','g','h'],['a','b','c'],['d','e','f'],['a','b','c'],['b','c','d'],['f','g','h'],['d','e','f'],['b','c','d']]]
rdd = spark.sparkContext.parallelize(data,2)
rdd.cache()
model = PrefixSpan.train(rdd, 0.2, 3)
print(sorted(model.freqSequences().take(100)))
を、私は彼らにはない、アルファベットをたどるためにそれらOシーケンスおよび周波数を見ることを期待する、けれども:
これは私がやっているものです。定義されたものに表示されていません
FreqSequence(sequence=[[u'c'], [u'd'], [u'b']], freq=1)
FreqSequence(sequence=[[u'g'], [u'c'], [u'c']], freq=1)
:
は、そして私のようなシーケンスを取得しています。明らかに、私の特徴を構造化する方法に問題があるか、このアルゴリズムの目的と機能に何か不足しています。
ありがとう!
おかげでこのすべてを説明するためのたくさん! – Kratos