私は40000列以上のデータファイルを持っています。ヘッダーでは、各列の名前はC1、c2、...、cnで始まり、cの各セットは1つまたは複数のサブセット、たとえばc1を持ちます。 2つの部分集合を有する。私はcの各セットの最初の列(サブセット)を削除する必要があります。データファイルの列の各セットの最初のサブセットを削除するにはどうすればよいですか?
入力:入力がどのように見える場合、たとえば
c1.31012 c2.87634 c2.22233 c3.44444
1 0 0 0 1
2 1 0 1 1
3 1 0 1 0
4 0 0 0 0
5 0 0 0 0
6 0 0 0 0
7 1 0 0 0
どれ提案して下さい:
c1.20022 c1.31012 c2.44444 c2.87634 c2.22233 c3.00444 c3.44444
1 1 0 1 0 0 0 1
2 0 1 0 0 1 0 1
3 0 1 0 0 1 1 0
4 1 0 1 0 0 1 0
5 1 0 1 0 0 1 0
6 1 0 1 0 0 1 0
を私は、出力は次のようになる必要がありますか?
update:行の数字の間に空白がない場合(私のデータセットの実際の状況です)、どうすればよいですか? 入力:
c1.20022 c1.31012 c2.44444 c2.87634 c2.22233 c3.00444 c3.44444
1 1010001
2 0100101
3 0100110
4 1010010
5 1010010
6 1010010
と出力:私の平均は、私の実際のデータは次のように見えることである
c1.31012 c2.87634 c2.22233 c3.44444
1 0001
2 1011
3 1010
4 0000
5 0000
6 0000
7 1000
ループ、リスト内の各サブセットの最初のヘッダの列番号を記録(またはハッシュでキーとして)。次に、すべての行をループし、すべての列をループし、リストにある列をスキップします。 – Barmar