を使用しています。次に、distinct()
メソッドを使用して一意の文字列のみを返すことができます。
データに
all_keys = [['category', 'ser_id', 'appname', 'timestamp', 'label', 'ser_token', 'appver', 'action'],
['category', 'ser_id', 'appname', 'timestamp', 'vale', 'label', 'ser_token', 'appver', 'action', 'type'],
['category', 'ser_id', 'appname', 'timestamp', 'vale', 'label', 'ser_token', 'appver', 'type' ]]
rdd = sc.parallelize(all_keys)
rdd.flatMap(explode).distinct().collect()
結果
を収集し、個別の要素を取得し、
def explode(row):
for k in row:
yield k
Flatmap flatMap関数を定義を作成します。
[ 'カテゴリ'、 'ser_id'、 'タイプ'、 'アクション'、 'タイムスタンプ'、 'ser_token'、 'APPVER'、 '谷'、 'ラベル'、 「APPNAME ']