私はPDFをXMLに解析しようとしていますが、次のような見出しを抽出したいと思います:I.はじめに、II。私のファイルからローマ数字で分類されたページレイアウト。私はこのような文字列に一致する正規表現を書いてみたいが、私はいくつかのことを試したが、うまくいきませんでした。C#でI.textをマッチングするための正規表現
0
A
答えて
1
これはあなたが必要なものを行う必要があります。
[IVXLCDM] +。 [A-Z] +
hereを述べたように:
\。ピリオド文字は特殊文字(任意の文字と一致することを意味する)であるため、正規表現の構文でピリオドに一致します。一方
あなたは文字列のみをローマ数字との見出しの名前が含まれていることを確認したい場合、あなたはこれを使用する場合があります
^[IVXLCDM]+\. [A-Z ]+$
^
と$
アンカーと呼ばれているが。 ^
は正規表現エンジンに文字列の先頭からのマッチングを開始するように指示し、一方$
は文字列の最後で一致を停止するように正規表現エンジンに指示します。ローマ数字の 完全なリストは、これは主に動作するはずWikipedia
1
は、ここ+ [IVX] B \シンプルな1
です。 [A-Z] +
1
から入手することができます。
^[IVXLCDM]+\. [^\p{Ll}]+?$
これは、数字や記号を含むヘッダと一致しますが、明示的にUnicode小文字を除外します。
また、あなたがそうのように、オプションのRegexOptions.Multilineを使用していることを確認します(inp
あなたの入力文字列です)
foreach (var match in
Regex.Matches(inp,
@"^[IVXLCDM]+\. [^\p{Ll}]+?$",
RegexOptions.Multiline))
Console.WriteLine(match.Value);
関連する問題
- 1. マッチング正規表現
- 2. 正規表現マッチング
- 3. 逆正規表現または逆正規表現のマッチング
- 4. 正規表現のマッチング
- 5. 正規表現マッチングのURL
- 6. 正規表現マッチングのjavascript
- 7. SASの正規表現マッチング
- 8. 正規表現gawkのマッチング
- 9. Bash。正規表現のマッチング
- 10. 部分正規表現マッチング
- 11. 単項記号と正規表現とのマッチング正規表現
- 12. C#変数を使った正規表現のマッチング
- 13. Javaでの正規表現のマッチング
- 14. オーバーラップマッチのためのC++正規表現
- 15. C++正規表現での改行のマッチング方法は?
- 16. perl正規表現のマッチングの問題
- 17. のJava正規表現のマッチングや句
- 18. ホームページの正規表現のマッチング
- 19. Pythonの正規表現 - 余分なマッチング
- 20. ハッシュ文字(#)と正規表現のマッチング
- 21. nginxの場所マッチング正規表現
- 22. セマンティックバージョンと正規表現のマッチング
- 23. 正規表現マッチングの構文
- 24. パイソン - BS4正規表現のマッチング結果[]
- 25. 正規表現 - 空白のマッチング
- 26. 正規表現マッチング用のGroovy構文
- 27. 正規表現のグループ化とマッチング
- 28. C#正規表現の正規表現
- 29. 正規表現私は正規表現次ているのマッチングhtmlタグ
- 30. サブ文字列を置換するためのJava正規表現のマッチング