トランスポーズ、そしてC2
の上に集約された種類の私が本当に必要なのデータセットです。この組み合わせ、私はいくつかのテキスト解析をやっているのPython
**TABLE 1**
C1 C2 C3
A1 TEXT1 ANOTHER_TEXT1
A2 TEXT1 ANOTHER_TEXT1
B1 TEXT2 ANOTHER_TEXT1
B2 TEXT2 ANOTHER_TEXT1
B3 TEXT2 ANOTHER_TEXT1
D1 TEXT3 ANOTHER_TEXT2
D2 TEXT3 ANOTHER_TEXT2
のように見えるデータを、持っている、とも内容C1
を異なる列として使用します。基本的に、df.transpose
は何をする予定ですか? しかし、問題は、私が転記すると、C2
とC3
が集約されないということです。
基本的に、これは私が
**TABLE 2**
C1 C2 CT1 CT2 CT3
ANOTHER_TEXT1 TEXT1 A1 A2 NA
ANOTHER_TEXT1 TEXT2 B1 B2 B3
ANOTHER_TEXT2 TEXT3 D1 D2 NA
で探していた構造である私は(下記参照)が正しいと、私にoccurancesのカウントを与える、df.pivot_table(index=['C2','C3'], aggfunc='count')
をしようとしています。
**TABLE 3**
C1 C2 CT1
ANOTHER_TEXT1 TEXT1 2
TEXT2 3
ANOTHER_TEXT2 TEXT3 2
私は望む構造(表2)でそれをどうやって得るのですか?それはすべて可能ですか?
もしそうでない場合、私にはどのような選択肢がありますか?で、どの構造が私が望むものに最も近いものであるかのように。
あなたはその後、unstack
と
set_index
によって再構築、新しい列に対して
cumcount
を使用することができます