pysparkデータフレームの列の順序を変更する方法は？

-2

私は監督されたデータを含むpysparkデータフレームを持っています。私のデータフレームでは、label属性はどの位置にあってもかまいません。私はラベルの属性を最後のデータフレームに移動したいと思います。例えば、私のデータフレーム内の属性が[年齢、性別、脱落者、給料、職業]のように存在するとします。この「逃亡者」にはラベル属性があります。この属性を最後に移動して、データフレームに[age、 'gender'、 'salary'、 'occupation'、 'defaulter']の列を含むようにします。私は、このデータにロジスティック回帰などのML藻類を適用したいとき、RDDに変換して、最後の値（または最初の値）をラベルポイント（https://github.com/apache/spark/blob/master/examples/src/main/python/mllib/logistic_regression.py）として抽出する必要があるため、これを実行したいと思います。pysparkデータフレームの列の順序を変更する方法は？

出典

2017-09-21 neha

可能な重複[Pythonのパンダ - 並べ替え列名に基づいてデータフレームの列を]（https://stackoverflow.com/questions/11067027/python-pandas-re-ordering-columnsカラム名に基づくデータフレーム） – charlesreid1

データフレームでMLアルゴリズムを実行する場合は、フィーチャ配列を作成するのにVectorAssemblerを使用することを検討してください。このように：

assembler = VectorAssembler(
    inputCols= ['age','gender','salary','occupation'], 
    outputCol="features") 

input_rdd = assembler.transform(dataframe) \ 
    .map(lambda row: LabeledPoint(row.defaulter, row.features))

の

出典

2017-09-21 11:11:10 Mariusz

pysparkデータフレームの列の順序を変更する方法は？

答えて

関連する問題