2017-09-08 5 views
0

データフレーム内の各特徴ベクトルに対してk個の最近傍が必要です。私はpysparkからBucketedRandomProjectionLSHModelを使用しています。モデルデータフレーム内のすべての点で最近傍点クエリを実行するためにLSHを使用する

brp = BucketedRandomProjectionLSH(inputCol="features", outputCol="hashes",seed=12345, bucketLength=n) 

model = brp.fit(data_df) 
df_lsh = model.transform(data_df) 

を作成するための

コード、どのように私はdata_dfの各点について、約最近傍クエリを実行します。

私はモデルをブロードキャストしようとしましたが、ピクルエラーが発生しました。 はまた、モデルにアクセスするUDFを定義すると、エラーMethod __getstate__([]) does not exist

答えて

2

使用し.approxSimilarityJoin

model.df_lsh(df_lsh, df_lsh) 
使用する必要がありますになります
関連する問題