私は20の最も一般的な名前とその頻度を国で見つけたいと思っています。Python:最も一般的な文字列を見つける最も効率的な方法
私は、100都市にすべての住民の名前のリストを持っていると言います。各リストには多くの名前が含まれている場合があります。約100個のリストを話し、それぞれのリストは1000個の文字列で表現します。
全国で最も一般的な20の名前とその頻度を取得するには、効率的なの方法は何ですか?このためpandas
とcollection
モジュール
- 用途:
これは私が同じディレクトリにあるテキストファイル内の各都市を得たと仮定すると、始まった方向です。
- 各city.txtを繰り返して文字列にします。次に、
Counter
モジュールを使用してコレクションに変換し、次にto_dict
を使用してDataFrameに変換します。 - 各データフレームと前のデータフレームとを結合します。
- 次に、DataFrameをグループ化してカウント(*)します。
しかし、DataFrameが大きくなりすぎる可能性があるので、この方法が機能しない可能性があります。
これについてのアドバイスをお聞きしたいと思います。ありがとうございました。ここで
あなたはパンダは '()'このためvalue_countsを持ってcollections' – PythEch
'から' Counter'クラスを使用することができます。 –
ここでどのくらいのデータを話していますか? –