1
私は約100万行と4列の巨大なファイルを持っています。分析したい列はAとCです。列Aの名前は複数回繰り返しますが、そのたびに列Cの一意の名前と一致します。列Cの4つの特定の名前を探しています。列Aの名前に対応します。 列Aのすべての名前を列Cの4つの名前の任意の組み合わせで使用したいと考えています。また、各組み合わせの数も数えたいと思います。 は、私は私が例に示し混乱さを知っている:python/pandaのマッチングとカウントの組み合わせ
オリジナルファイル: 私はTI、NB、CCおよびLR列Cで、列Aのその対応名を探しています
A B C D
GB1 TI
GB2 NB
GB3 VH
GB1 NB
GB2 CC
GB6 TI
GB1 LR
GB1 CC
GB8 JK
GB9 TI
結果私がしたいこと:
Name: Name from column C:
GB1 TI, NB,LR,CC
GB2 NB,CC
GB6 TI
GB9 TI
はまた、私はそこにどのように各組み合わせの多くを知りたい:(20周りの可能な組み合わせ)
Combination: Number:
TI,NB,LR,CC 1
NB,CC 1
TI 2
あなたはグループのデータフレームがA
によってできると(組み合わせの目的のカウントのために)アイテムをソートした後、カラムC
からすべての項目に参加し、すべての組み合わせを見つけるために、
おかげで、それは私がしたい正確に何です。申し訳ありませんが私は非常にプログラミングに精通していない、あなたは助けてください、どのようにExcelファイルに結果を保存することができますか? –
私はまた別の質問があります: "LR"の列Cでは、その名前は "LRR"です。私は何をすることができます、そのプログラムは別の名前とみなして1つの名前として数えますか? –
結果をExcelに保存するには、 'df.to_excel(...)'と思いますか? 'LR'と' LRR'を同じように扱うには、 'dR.C.replace(" LRR "、" LR ")を使って' LRR'を 'LR'に置き換える方法があります。 – Psidom