0
以下のデータフレームで使用しているスキーマをscalaで検討してください。RDDを使用してSparkでRDDを平滑化して、反復値のペアを取得しない
root
|-- phonetic: string (nullable = true)
|-- sigID: long (nullable = true)
私は基本的に音声でグループ分けしています。私が(キー、([値が-、値-B]))
abc,1,2
abc,1,3
abc,2,3
def,9,8
....
のデカルトを取得するには、これを平らにするにはどうすればよい
(abc,([1],[2],[3]))
(def,([9],[8]))
以下RDDを与える
featuers.rdd.groupBy(x => x.apply(0))
おかげ
使用[itertools.combinations](https://docs.python.org/2/library/ itertools.html#itertools.combinations)をPySpark APIの 'map'と組み合わせて使用します。 (あなたがPySparkを使用していると仮定すると、これは私にとってScalaに似ています...) –
はい私はscalaを使用しています。スカラーに相当するものはありますか? –
正直言って、 'groupBy'を実行せずに' DataFrame'として保存する方が簡単かもしれません。 –