私は300万行と1,200個の "グループ"を持つデータセットを扱っています。Python - 列の値(またはサブセット)に基づいたグループ化(またはループ)
LastName FirstName
Smith Rachael
Smith John
Smith Rachael
Johnson Bob
Johnson Laura
Johnson Laura
私は別に、各姓を見たい、とそれぞれの姓内の最初の名前に何かをする:ここでは
は、データセットは次のようになります。たとえば、Smithの姓の中で最も普及しているファーストネームを見つけて、それを独自のカラムとして追加することができます(実際はそれよりもはるかに複雑です)。私はすべての行をそのままにする必要があります(言い換えれば、すべてのスミスとすべてのジョンソンを守る必要があります)。
LastName FirstName HighestFreq
Smith Rachael Rachael
Smith John Rachael
Smith Rachael Rachael
Johnson Bob Laura
Johnson Laura Laura
Johnson Laura Laura
最良の方法は、1200個のデータセットに設定されたデータを分割して、最後に戻って一緒にマージしたり、ループのいくつかの種類を行うのであれば、私は知りません。私はPythonの初心者であり、正しく実行する方法を見つけ出すことができませんでした。私は個々の行を見るために必要なコードを見つけました。ちょうど一度に1つの姓だけを見る方法です。
サブセット化が最善の方法である場合、私は明らかに1,200個のデータセットを手動で命名するつもりはないので、ループのセットに名前を付ける必要があります。
読んでいただきありがとうございます。
1,200個のデータセットを作成する必要はありませんが、なぜそうは思わないのでしょうか。関心のあるカテゴリで元のデータセットをソートすることは、常に良いスタートです(データセットがメモリを保持するのに大規模である場合は、それほど簡単ではありません)。ソート後、あるカテゴリーのすべてのカウントを変数で保持する可能性が最も高くなります。 –