私はウィキペディアの記事を解析しようとしています。 * page-articles.xmlファイルを使用して、記事をすべてウィキコード形式でバックアップします。書式を取り除いて生のテキストを取得するには、正規表現を使用しようとしますが、あまり慣れていません。私はプログラミング言語としてC#を使用しています。 正規表現のデザイナーであるExpressoとちょっと試しましたが、私は知恵の最後です。ここで私が達成したいものです。C#でWikicodeを解析するための正規表現
テキストは以下の構造を含めることができます [[TextN]]または [[テキスト1] | TextN]]または [[テキスト1] |テキスト2 | ... | TextN]]
[[....]]パターンもTexti内に表示されます。エスプレッソはこの1つを実行して、無限ループに思わ
\[\[ (.* \|?)* \]\]
:私は、私は、次の正規表現を試みたテキストwithhin構造をidentifingについてTextN
でこれらの構造を交換したいです。相対的な小さなテキストのための5分後、私はテストランをキャンセルしました。
その後、私は私が括弧の間に何かをキャプチャしたい、よりシンプルなものを試してみました:
\[\[ .* \]\]
が、私のような行がある場合:
[[Word1]] text inbetween [[Word2]]
を式が行全体を返し、ありません
[WORD1]
[WORD2]
ここで問題を解決するためのRegex-Expertsのヒントを教えてください。事前に
おかげで、 フランク
ネストしたタグでは失敗します:[[これは[[ネストされたタグ]]]] –
SealedSunが指摘するように、ネストされたタグを扱うことができるRegExが必要です。 – Aaginor
どのようにネストされたタグを処理したいですか?ネストされたタグで何をしたいですか?扱いは別にするか、入れ子にされた大括弧を削除するだけですか? – Lazarus