私は比較的大きい(30行の)行のテキストブロックを扱っています。以下はその抜粋です:大文字の文字をPythonに置き換える最適な方法は?
PID | 1 | |^MR || PATIENT^FAKE R ||| F
PV1 1 || 06225401 ^^^ PA0私は025631^DoctorZを||||| ^^^^^^^ PA0 ^^^^ DRH | DRH |||| ...
ORC | RE || CYT-09から06645^AP |||||| 200912110333 | INTERFACE07
OBR | 1 || CYT09-06645 | 8104 ^^ ||| L 20090602 ||||||| 200906030000 [conditio ...
OBX | 1 | TX | 8104 | 1 | SソースPECIMEN:[ソース] |||||| F ||| 200912110333 | CYT ...
私は現在、不正な文字や用語を取り出し、スクリプトを持っています。ここに例があります。
infile = open(thisFile,'r')
m = infile.read()
#remove junk headers
m = m.replace("4þPATHþ", "")
m = m.replace("10þALLþ", "")
私の目標は、フィールドの1つの最後に4桁を追加できるようにこのスクリプトを変更することです。具体的には、OBR行の日付フィールド( "20090602")。完成したスクリプトは、この同じ形式に従うファイルであればどんなファイルでも動作します。これは私が現在ファイル入力を処理している方法で可能ですか、あるいは別のロジックを使用する必要がありますか?
質問は完全にはっきりしていません。サンプルの入力と出力を提供できますか? –
これらのジャンクヘッダは、例えば、 "4 \ xfePATH \ xfe"と呼ばれ、いわゆる "違法な文字"は文字ではありません(アイスランド語の小文字の棘もラテン文字の小文字のpもありません)。ごみ。 –