私はPySparkを使用します。ベクトルの列を2つの列に分割する方法は?
スパークMLのランダムフォレスト出力DataFrameには、2つの値を持つベクトルである「確率」列があります。出力データフレームに「prob1」と「prob2」という2つの列を追加し、ベクトルの最初の値と2番目の値に対応させます。
私は次のことを試してみた:
output2 = output.withColumn('prob1', output.map(lambda r: r['probability'][0]))
を私は「COLは列でなければなりません」というエラーが発生します。
ベクトルの列をその値の列に変換する方法に関する提案はありますか?
私はあなたの提案を試みたが、それは、ここで言及したようなエラーを生成:http://stackoverflow.com/questions/29910708/pyspark-py4j-pickleexception-expected-zero-arguments-for-クラスの構築 – Petrichor