2016-04-22 6 views
0

pysparkリストに最もよく表示される項目を見つける必要があります。私は、cが最も高い周波数を有するものであることを知っておく必要がありpyspark list、最も表示される項目を見つけよう

mylist = [a, b, c, s, c, c, s, a, c] 

: は、私のようなリストがあるとします。

私はいくつかの類似した答えを検索し、私は

from collections import Counter 

を試みたが、名前のカウンターをインポートすることはできません。これはpysparkを持っている必要がありますか?

答えて

1

このリストは、ベースPythonでこれを行うことができるほど小さい(約< 100k要素)ですか?もしそうなら、あなたはスパークを必要としません。

from collections import Counter 
mylist = ['a', 'b', 'c', 's', 'c', 'c', 's', 'a', 'c'] 
counter = Counter(mylist) 
print(counter.most_common()[:5]) # get the five most common elements 

非常に大きなファイル要素がある場合は、Sparkを使用することができます。この場合、collectionsは必要ありません。いくつかのサンプルコードについては、Spark examples pageを参照してください。

Counterをインポートできない理由は、特にcollectionsがデフォルトで提供されるパッケージであることがわかりました。通常のPythonシェルを開き、import collectionscollections.Counterを実行してみてください。私はあなたが与えたものと全く同じ輸入ラインを走らせてくれました。

関連する問題