私は新しいC#プログラマです。私は、彼らがこの形式である場合は、PDFファイル(ブック)からヘッダを抽出する単純なC#アプリケーションを作成しようとしている:マルチラインヘッダの正規表現C#
1.1電気/電子工業は
1.2小史
:測定string pattern = @"(\d+)(\.)(\d+) ([A-Z]+).([A-Z]+).([A-Z]+).([A-Z]+).([A-Z]+)"; Regex.match(strText,pattern);
1.3単位は
は、私は、コードを使用しています
単一行ヘッダーでは問題ありませんが、2行/複数行ヘッダーでは機能しません。 誰も助けてもらえますか?
目次から何か話していますか?ブックのテキスト全体を1つの文字列と見なして一度正規表現を実行すると、正規表現は決して動作しません。あなたは多くの偽陽性を拾い、おそらくいくつかを逃してしまうでしょう。 – SledgeHammer
その正規表現はあなたが思っていることをしていません。例えば、 'XYZ1.2 A BRIEF HISTORY'という行と一致し、' 2.4 SUMMARY'と一致しません。正規表現についてのチュートリアルをいくつか見つけることをお勧めします(しかし**はトピックから明示的に除外されているため、ここでは**を求めていません)。 – AdrianHHH
ええ、私は本の全文について話しています。私はそれが整形されているので、それを選ぶ。うまくいくと思うけど、はい、私は解決できると思う小さな問題がある@SledgeHammer – rabinmallick