2016-12-15 12 views
1

私は、このファイルで欲しいことを行うために正規表現を適切に構築する方法を完全に失っています。 "時間" 欄の下から、AppearanceTimeからSS、およびSS.SSS:MM: 正規表現または分割( '')?

https://www.dropbox.com/s/9zadqzbvcg6ogtf/000218.txt?dl=0

AppearanceDate 29.08.2015 
AppearanceTime 00:02:18 
FrameCount 17 
# time bright x  y  alpha  delta c_x c_y c_alpha c_delta use 
01 18.175 ---- 0.052 0.838 19.3755 21.947 ----- ----- -------- ------- no 
02 18.215 ---- 0.053 0.834 19.3682 21.985 ----- ----- -------- ------- no 
03 18.255 ---- 0.055 0.830 19.3608 22.024 ----- ----- -------- ------- no 
04 18.295 5.1 0.057 0.826 19.3535 22.063 ----- ----- 19.3541 22.070 yes 
05 18.335 0.4 0.058 0.821 19.3462 22.101 ----- ----- 19.3452 22.105 yes 
06 18.375 0.3 0.060 0.815 19.3354 22.137 ----- ----- 19.3365 22.140 yes 
07 18.415 0.3 0.061 0.811 19.3281 22.172 ----- ----- 19.3278 22.174 yes 
08 18.455 0.2 0.063 0.806 19.3193 22.210 ----- ----- 19.3192 22.208 yes 
09 18.495 0.2 0.064 0.801 19.3110 22.236 ----- ----- 19.3107 22.241 yes 
10 18.535 0.2 0.066 0.795 19.3018 22.286 ----- ----- 19.3023 22.274 yes 
11 18.575 0.1 0.068 0.791 19.2935 22.312 ----- ----- 19.2939 22.306 yes 
12 18.615 ---- 0.069 0.786 19.2861 22.335 ----- ----- -------- ------- no 
13 18.655 -0.1 0.070 0.782 19.2788 22.359 ----- ----- 19.2776 22.369 yes 
14 18.695 -0.1 0.071 0.776 19.2686 22.391 ----- ----- 19.2695 22.400 yes 
15 18.735 ---- 0.073 0.770 19.2583 22.424 ----- ----- -------- ------- no 
16 18.775 ---- 0.074 0.764 19.2480 22.456 ----- ----- -------- ------- no 
17 18.815 ---- 0.076 0.758 19.2383 22.488 ----- ----- -------- ------- no 

私はHHの両方にマッチしたいと思います

現在、私はほとんど二段階でそれを行うことができます - まずAppearanceTimeのために私が使用することができます。

r"(\d{2}:\d{2}:\d{2})"

を私の知る限りSS.SSS値を持っているようです:

r"(\d{2}[.]\d{3})"

これはAppearanceDate、alpha、delta、c_alpha、およびc_deltaの値の一部にも一致します。

最後に、問題が発生した場合 - 私はここでテストしています:https://regex101.com/グローバルとマルチラインフラグをオンにします。

誰もがこれで私を助けることができたら、それは最も感謝します。正規表現作成に役立つ良いリソースがたくさんあるようですが、私は絶対にどこにも行きません!

私が持っていたもう一つのアイデアは、おそらくSS.sssのためにsplit(' ')をかなり効果的に使うことができるということでしたが、何千もの正規表現や分割が効率的であるというアイデアがあるか上記のようなファイル。

ありがとうございます!

+2

質問にテキストデータを投稿することができます –

+0

このようにしてみてください^ AppearanceTime(。*)|^AppearanceDate(。*) "gm' –

+0

私の助言は、両方の場合に' split( '') 'を使います。行をスキップして3行をスキップし、残りの作業を行います – Saksow

答えて

1

あなたは

(?:AppearanceTime\s+|^\d+\s+)(\d{2}:\d{2}:\d{2}|\d{2}\.\d{3}) 

を使用することができます(re.findallre.Mフラグを使用)regex demoを参照してください。

詳細

  • (?:AppearanceTime\s+|^\d+\s+)は - 開始 - AppearanceTime文字列と1+空白(\s+
  • | - - または
  • ^\d+\s+これは2つの選択肢
    • と一致しますライン(^ )、1+桁(\d+)と1+空白
  • (\d{2}:\d{2}:\d{2}|\d{2}\.\d{3}) - マッチとを捕捉(re.findallための最終出力)のいずれか2つの代替の:
    • \d{2}:\d{2}:\d{2} - 3 :で区切ら2桁チャンク
    • |
    • - 又は
    • \d{2}\.\d{3}から2桁、.
    • をサブストリング3桁

Python demoを参照してください:

アウト
import re 
rx = r"(?:AppearanceTime\s+|^\d+\s+)(\d{2}:\d{2}:\d{2}|\d{2}\.\d{3})" 
s = <<YOUR STRING HERE>> 
res = re.findall(rx, s, flags=re.MULTILINE) 
print(res) 
1
match = re.findall(r'^\d.+?(\d{2}[.]\d{3})', txt, flags=re.MULTILINE) 
print(match) 

['18.175', '18.215', '18.255', '18.295', '18.335', '18.375', '18.415', '18.455', '18.495', '18.535', '18.575', '18.615', '18.655', '18.695', '18.735', '18.775', '18.815'] 

だけで複数行モードを使用し、各ラインの試合は、最初^\d^\d.+?で表示されます。

関連する問題