2017-01-27 12 views
1

新しいデータフレームを作成して、古いデータフレームから新しいデータフレームを作成しようとしています。私はこのようなデータフレームを持っています:pysparkのデータフレーム列を更新する

+-------+--------------------+--------------------+ 
| A  |   B  |     C| 
+-------+--------------------+--------------------+ 
| 224.39|[2533695.47884,25...|[2.53311343446655...| 
| 398.56|[2551303.18964,25...|[6740638.70550121...| 
|1445.59|[2530998.06972,25...|[7839490.11546087...| 

列BとCには、要素のリスト(各列の各行に約100)があります。私はこれから新しいデータフレームを作成したいと思います。たとえば、各行のC列に5つの要素だけを選択します。

+-------+--------------------+--------------------+ 
| A  |   B  |     C| 
+-------+--------------------+--------------------+ 
| 224.39|[2533695.47884,25...|[1,2,3,4,5]   | 
| 398.56|[2551303.18964,25...|[1,2,3,4,5]   | 
|1445.59|[2530998.06972,25...|[1,2,3,4,5]   | 

これまでのところ、私は新しいデータフレームの列Cを抽出するだけで管理していると私はforeach(lambda x: x[0:5])を使用しようとしましたが、このforeachの後のデータフレームがNoneType要素であり、それはdoesnの:それはこのようなものになるだろう仕事はありません。

ありがとうございます。

答えて

1

最後に、私はこれを行う方法を見つけました。 VectorSlicerを使用すると、PCAから機能を選択するのが非常に簡単です。

関連する問題