単語文書をhtmlとして保存して生成されたhtml文書を解析する必要があります。html文書の脚注を解析する
より簡単かもしれない私はかなり成功したHTMLの敏捷性パックを使用してきたが、この例では私はこの1つの部分のための正規表現を使用して考え出し(意見?)
それはその脚注の1つにを変換するときのWordには、次のコードを生成しますHTML
<a href="#_ftn2" name="_ftnref2" title=""><span
class=MsoFootnoteReference><span class=MsoFootnoteReference><span
style='font-size:10.0pt'>[2]</span></span></span></a>
この出力は、HREFを持つすべての脚注のために一貫している=と名前が変更ならびに[2]のテキスト。
私は_ftn2要素と[2]要素を抽出する必要があります。
これまでのところ、私はこれらすべてのspanタグと第2ビットを解析し、トラブルのビットを抱えている名前のグループ
<a href="#(?<name>_ftn\d).*>(<span class=MsoFootNoteReference>)
に_ftn2の一部を抽出します、次の正規表現を持っています。
正規表現を使用する方が簡単か、この部分にHAPを使用し続ける必要がありますか?単語は、ネストされた、同一のspanタグを生成する理由
アンはさておき、誰でも入力が正確にその形式を次のなら、あなたはかなり緩い正規表現で逃げることができ
<span class=MsoFootnoteReference>
私はクラスMsFootNoteReferenceのすべてのスパンを取得し、親hrefをチェックします... – philipp