2011-06-30 10 views
1

私は以下に述べるような文字列を持っていますが、基本的にデータはExcelファイルに入ってきています。いくつかの行は適切なデータであり、これらの適切なデータ行に対して私はluaパターンを使用して必要なものを取り出すことができます。以下は、適切なデータ行ルアパターン:必要な文字列を取り出す方法

2011/02 ARRTC AAUUMCO ZZITNWMOBILE COMMUNICATIONS CENTER ARRTC-AAUUM-TBT-2011-02 0.00 AAUUM_ARRTC_0211_TBT 18.03 18.03 EUR 1.14977 20.73 20.73

であり、私は以下の使用していますパターンはすべて正常に動作しています。

rPattern = 「(%D%D%D%D%/%D%D)の%s×(%W%%W [%%W D] [%のD W%、W)% %[%w%d]] [%u%d% - %s] - ([%d%。%]%s * [%u%d%%] *)%s *([%d%。%、] +)%s *([%d%。%、] +)%s *(%u%u%u)%

いくつかの行にはHTMLタグが付いているので、データがhtmlタグの内側にあることを意味します。私が必要とする唯一のトリックは、HTMLタグ内に必要な文字列を取得することです。盗聴行は、私がしようと試みるが、それを行うことができなくしようとしていますAAUUM_ARRTC_0211_TBT

を取得したい上の行から今

2011/02 ARRTC AAUUMCO ZZITNWMOBILE COMMUNICATIONS CENTER ARRTC-AAUUM-TBT-2011-02 0.00 <a href="/cgi-bin/recon_detail?rectent=AAUUM&benificary=ARRTC&period=2011/02&svctype=Voice">AAUUM_ARRTC_0211_TBT</a> 18.03 18.03 EUR 1.14977 20.73 20.73 

です。誰かが私のパターンを修正する手助けをすることができますか?

おかげ

+0

あなたが探している*正確なものは何ですか?一致するタグ間の最初のコンテンツですか? –

+0

投稿を更新しました。それはあなたにいくつかの詳細を与えることを望みます – Shax

答えて

2

print(str:match(">(.-)<"))を試してみてください。

+0

私は自分の投稿を更新しました。それはあなたにいくつかの詳細を与えることを望む – Shax

1

ルアパターンマッチングでは、HTMLを解析できません。 ">(.-)<"パターンはこの特定のインスタンスでは機能しますが、任意のHTMLの一般的な解決策ではありません。

+0

私は自分の投稿を更新しました。それがあなたにいくつかの詳細を与えることを願って – Shax

関連する問題