長いリストの項目を含むpdfから変換したtxtファイルがあります。次のようにこれらの項目は、番号付け規則があります。2つのキャプチャされたグループ間のすべてのコンテンツをキャプチャする方法
[A-Z]{1,2}\d{1,2}\.\d{1,2}\.\d{1,2}
この式は、間に何かを一致します
A1.1.1
と
ZZ99.99.99
これはうまく動作します。私が抱えている問題は、グループ1とグループ2の各アイテム番号(アイテムの説明)間のすべてをキャプチャしようとしていることです。
これらはリストまたはイテレートとして返される必要があります。キャプチャされたコンテンツをExcelスプレッドシートにエクスポートすることができます。
^([A-Z]{1,2}\d{1,2}\.\d{1,2}\.\d{1,2}\s)([\w\W]*?)(?:\n)
は私が持っているもののサンプルと問題私が直面していますを見つけるために、このリンクをクリックしてください:
この
は、私が現在持っている正規表現であるができる誰もがすることですどのように多くの段落に関係なく、各番号間のすべてをキャプチャする方法を把握するのに役立ちますか?
いずれの入力もありがとうございます。ありがとうございます!
私はPythonを知らないのですが、私には同様の[質問]がありました(https://stackoverflow.com/questions/46331543/use-regex-to-split-numbered-list-array-into-numbered-list -multiline)を最近使用しました。これは[regex101デモ](https://regex101.com/r/WpiKin/3)です。うまくいきたいです – danieltakeshi