私は特に、この記事で言及columnSimilarities()関数を関数columnSimilarities()、computeColumnSummaryStatistics()がPySparkにRowMatrixメソッドにアクセスすることはできません:columnSimilarities()、computeColumnSummaryStatisticsを()
- を使用しようとしています:
https://databricks.com/blog/2014/10/20/efficient-similarity-algorithm-now-in-spark-twitter.html
私はMLIBからスパースベクトルのリストを使用しています。
sparse_vectors = []
for cust, group in df.groupby(0):
i_v = zip(group[1].values, group[2].values)
i_v = sorted(i_v)
indices = [x[0] for x in i_v]
values = [x[1] for x in i_v]
sparse_vectors.append(Vectors.sparse(len(df[1].unique()), indices, values))
rows = sc.parallelize(sparse_vectors)
mat = RowMatrix(rows)
私はエラーを取得する:
AttributeError: 'RowMatrix' object has no attribute 'computeColumnSummaryStatistics'
または
AttributeError: 'RowMatrix' object has no attribute 'columnSimilarities'
私は関数を実行するたびに。
Scala Sparkではなく、これがPySparkの問題ですか?私はまた、Google検索を通じてRowMatrix関数のページを見つけることもできません。
は、あなたがこれらはPySparkに実装されていません(1.6スパーク)ので、今のように、これらのメソッドにアクセスすることはできませんあなた
ありがとうございます。私はソースからビルドしていません。 – user1340048
このメソッドはIndexedRowMatrixでのみ機能しますか?またはRowMatrixでも利用できますか? – user1340048
'IndexedRowMatrix'だけですが、' RowMatrix'でもこのコードを動作させるのは難しくありません。 – zero323