すべての列が数値ではないため、異なるデータ型の列(ProductId、Name、size、color、class、deptなどの列)を持つ表があります。一緒に。データはNetezzaに格納されていますが、高速処理のためにデータ量が膨大なため(約200万行)、DB側でのみ実行したいと考えています。kmeansの実装で、データベースレベルでの混合変数
RでGowerの類似性を実装しようとしましたが、時間がかかります。 Netezza側で使用できるUDFはありますか?
dput(ヘッド(PROD))
構造(リスト(PRODUCT_KEY = C( "136220083"、 "134520094"、 "137520230"、 "133420231"、 "137420204"、 PRDF_SKU_NAME = c(「1496533」、「1496534」、「1496537」、「1496540」、「 」、「1496541」、「1496534」)、SRO_score = c(2,2,2,3,3,3,0,1) ")、ATTRIB_VAL1 = c(" Champion Canvas "、" Champion Canvas "、" Champion Canvas "、" Champion Canvas "、" Champion Canvas "、 " Champion Canvas ")、ATTRIB_VAL2 = c("ネイビーキャンバス "、"ネイビーキャンバス "、 ATTRIB_VAL3 = c( "9.5W"、 "10W"、 "7W"、 "8.5W"、 "9W"、 "9.5W") 、ATTRIB_VAL4 = c(「靴下」、「Keds」、「Keds」、 「Keds」、「Keds」、「Keds」)、ATTRIB_VAL5 = c(「VULCANIZED FOOTWEAR」、 「VULCANIZED FOOTWEAR」、「VULCANIZED FOOTWEAR」、 、 "加硫靴"、 "加硫靴"、 "加硫FOOTWEAR")、ATTRIB_VAL6 = C( "レディース SPORT伝統的な"、 "レディースSPORT伝統的な"、 "レディースSPORT 伝統的な"、 "レディースSPORT伝統的な"、「レディースATTRIB_VAL8 = "1.38ポンド"、 "1.38ポンド"、 "1.38ポンド"、 "1.38ポンド"、 "1.38ポンド" c(「シューズ 女性用スポーツ」、「シューズレディーススポーツ」、「シューズレディーススポーツ」、「シューズ ATTRIB_VAL9 = c( "女性用シューズ"、 "女性用シューズ"、 "女性用シューズ"、 "レディースシューズ"、 "レディースシューズ"、 "レディースシューズ"、 "レディースシューズ"、 "レディースシューズ" WOMENS SHOES "))、.Names = C(" PRODUCT_KEY」、 "SRO_score"、 "PRDF_SKU_NAME"、 "ATTRIB_VAL1"、 "ATTRIB_VAL2"、 "ATTRIB_VAL3"、 "ATTRIB_VAL4"、 "ATTRIB_VAL5"、 "ATTRIB_VAL6"、 "ATTRIB_VAL7"、 "ATTRIB_VAL8"、 "ATTRIB_VAL9")、 = C(4107L、3927L、4260L、3794L、4246L、4140L)、クラス= "data.frame" をrow.names)
データのサンプルを共有する必要があります。 'dput(head(data)) 'のようなものです。 – TUSHAr
@tushaR更新 –