私は4列のデータを持つデータセットを持っています。Apache Spark(pyspark)のデータセットから特定の列を取得するにはどうすればよいですか?
例:pysparkを使用して
a b c d
1, 2, 3, 4
...
、どのように私は、列a
だけb
のためのデータを取得することができますか?私はスパークするために新しいです:
dataset = data_raw.filter(lambda line: line != dataset_header) \
.map(lambda line: line.split(", ", maxsplit=2)).take(1)
しかし、これは私に必要な目的を与えるようではありません。私が望むのは、列がa
とb
で、残りのデータセットを破棄することだけです。どんな助けでも大歓迎です。
こんにちは@Grr私はちょうどあなたの提案を試みただけで、すべてのデータを印刷します。 – xn139
@ xn139これで私のテストの画像をアップロードしました。 RDDやDFなどを使用して、データをどのように読み込んでいるかについていくつか詳細を述べることができれば、助けが簡単になります。 – Grr
こんにちは@Grr、私のデータはCSVファイルです - CSVファイルを並列化しようとすると次のようになります: 'TypeError: 'RDD'オブジェクトは反復不可' CSVファイルを並列化して上記の操作を実行できますか? – xn139