2017-09-21 19 views
-2

私は監督されたデータを含むpysparkデータフレームを持っています。私のデータフレームでは、label属性はどの位置にあってもかまいません。私はラベルの属性を最後のデータフレームに移動したいと思います。例えば、私のデータフレーム内の属性が[年齢、性別、脱落者、給料、職業]のように存在するとします。この「逃亡者」にはラベル属性があります。この属性を最後に移動して、データフレームに[age、 'gender'、 'salary'、 'occupation'、 'defaulter']の列を含むようにします。私は、このデータにロジスティック回帰などのML藻類を適用したいとき、RDDに変換して、最後の値(または最初の値)をラベルポイント(https://github.com/apache/spark/blob/master/examples/src/main/python/mllib/logistic_regression.py)として抽出する必要があるため、これを実行したいと思います。pysparkデータフレームの列の順序を変更する方法は?

+0

可能な重複[Pythonのパンダ - 並べ替え列名に基づいてデータフレームの列を](https://stackoverflow.com/questions/11067027/python-pandas-re-ordering-columnsカラム名に基づくデータフレーム) – charlesreid1

答えて

0

データフレームでMLアルゴリズムを実行する場合は、フィーチャ配列を作成するのにVectorAssemblerを使用することを検討してください。このように:

assembler = VectorAssembler(
    inputCols= ['age','gender','salary','occupation'], 
    outputCol="features") 

input_rdd = assembler.transform(dataframe) \ 
    .map(lambda row: LabeledPoint(row.defaulter, row.features)) 
関連する問題