しばらくの間、正規表現をやっていないし、少し錆びています。ネストされたタグの正規表現(Wikimediaのコンテンツ)
私はWikipediaのエントリからカテゴリを解析しようとしています。私が必要とするのは、2つの開いた括弧で始まり、2つの閉じ括弧で終わるパターンに含まれる個々の文字列です。
このクエリでは、ほとんどの時間の作品 -
(\[\[)(?<category>.*[^\]#])([\]])
が、決算ブラケットがそれらの隣にコンマ(「」)がある場合の問題を持っています。
これは、次のテキスト解析するという残念な結果がある -
nlocation = [[Seattle, Washington]], [[United States|USA]]|
それは「カテゴリ」明らかに
Seattle, Washington]], [[United States|USA
ために、以下の抽出物を、コンマはこれをオフに投げているし、それが発見されます次のセット。開いている括弧と閉じた括弧の間のすべての値を取得する最も良い方法は何ですか?
htmlを解析するときは、それぞれの言語のhtmlパーサーを使用してください。 xmlのいくつかの明白な利点の1つは、それらを解析するために正規表現を使用する必要がないということです。 –
@ THC4k - あなたについてはわかりませんが、HTMLは[[シアトル、ワシントン]それはのように見えるSeattle, Washington –