0
データフレーム内の各特徴ベクトルに対してk個の最近傍が必要です。私はpysparkからBucketedRandomProjectionLSHModelを使用しています。モデルデータフレーム内のすべての点で最近傍点クエリを実行するためにLSHを使用する
今brp = BucketedRandomProjectionLSH(inputCol="features", outputCol="hashes",seed=12345, bucketLength=n)
model = brp.fit(data_df)
df_lsh = model.transform(data_df)
を作成するための
コード、どのように私はdata_dfの各点について、約最近傍クエリを実行します。
私はモデルをブロードキャストしようとしましたが、ピクルエラーが発生しました。 はまた、モデルにアクセスするUDFを定義すると、エラーMethod __getstate__([]) does not exist