ファイルが100個あり、すべてをループしているとします。各ファイルには、いくつかの属性のレコードがあります。(すべてのファイルを読み取る前に属性の総数を知ることはできません)Pythonでピボットデータを生成する
すべてのファイルを読み込んだ後、20種類の属性と以下の情報:
File_001: a1, a3, a5, a2
File_002: a1, a3
File_003: a4
File_004: a4, a2, a6
File_005: a7, a8, a9
...
File_100: a19, a20
[更新]、または各ラインを1つのファイルと一つの属性間のシングルマッチで別の表現で:
File_001: a1
File_001: a3
File_001: a5
File_001: a2
File_002: a1
File_002: a3
File_003: a4
File_004: a4
File_004: a2
File_004: a6
...
File_100: a19
File_100: a20
は、どのように私はすなわち、「逆」の統計表を生成することができます。
a1: File_001, File_002, File_006, File_083
a2: File_001, File_004
...
a20: File_099, File_100
どうすればPython(2.7.x)で実行できますか? (そしてパンダの有無にかかわらず、私はパンダが助けてくれると思う)
ありがとう!それは完全に動作します!出力[202]をDataFrameとしてどのように設定できますか?私はhtmlやcsvにエクスポートできますか?結果は、エクスポートする方法を持っていないようだ... –
そして、私は各行に1つだけの属性を持つ元のDFを持っている、例えば。 'File_001 a1'(改行)' File_001 a2'(改行) 'File 002 a1'などコンパウンドコード行をどのように調整して望みの出力を達成するか(DFとしても)? –
@JimRaynor、私は答えを更新しました - – MaxU