に応じて、csvファイルの一部の列をマージ:私はこのようになりますcsvファイル、持っている状態
5005284;5003485;C1; C2;A00.00;10-11-01;NULL;1;;
2006483;2003855;this is some text; and some 787; or even &[]\><;A87.03;30-09-86;NULL;1;
2006485;2003855;C;K86.00;31-12-91;NULL;1;;;
ファイルを分離;
で、残念ながら、彼らは余分な列を作成する第三列でこの文字を使用。これらのすべてを偽列を1つの列に連結し、以下の期待される出力に示すようにします。
これまでのところ、私が持っている:
に結果のimport re
import pandas as pd
text = open ('testepisodes.csv')
cleared = pd.DataFrame()
for line in text:
# get rid of extra ;;; or ;;
line.replace(";;;", ";")
line.replace(";;", ";")
print line
index = line.count(";")
print index
if index==9:
line = re.sub(r'^((?:[^.]*\;){4}[^.]*)\..*', r'\1', line)
if index==8:
line = re.sub(r'^((?:[^.]*\;){3}[^.]*)\..*', r'\1', line)
print line
:
私がしたいのですが2078915;2003855;this is some text; and some 787; or even &[]\><;A87.03;30-09-86;NULL;1;
126
126
2078915;2003855;this is some text; and some 787; or even &[]\><;A87.03;30-09-86;NULL;1;
:
commentから編集5005284;5003485;C1 C2;A00.00;10-11-01;NULL;1;
2006483;2003855;this is some text and some 787 or even &[]\><;A87.03;30-09-86;NULL;1;
2006485;2003855;C;K86.00;31-12-91;NULL;1;
インデックス2は、常に一緒にすべきものの出発点です。新しいインデックス3には 'A00.00'パターンが含まれている必要があります。 'A'は大文字(A〜Z)を表し、 '0'は数字(0〜9)を表します。
実際に何を言いたいのですか?複数のインスタンスをすべて削除するかどうか ";"ファイルに書き込みますか? –
また、私は問題を再現できません。私は 'print index'を' 9'としています。 – oxalorg
Cはインデックス2外に出現します(C列を呼び出した場合、スプレッドシートプログラムで使用されます)。 –