2017-10-09 3 views
0
<span style='mso-tab-count:1'>         </span> 
<span style='mso-tab-count:1'>   </span> 

上記の最終行は[ソースコードの表示]ページのもので、先頭行はChrome開発ツールのソースビューのものです。以下のRegExは、一連のスペースを含むボトムタグと一致しますが、空の空白だけを囲むトップタグは一致しません。 https://regex101.com/r/P9dUP9/2Chromeのdevtoolsソースビューで作成された空白と一致していますか?

私は正規表現でも一番上の行に一致させることができ、そしてどのように私はそれらの両方をコピーして貼り付けせずに画面上の空白の2種類の違いを伝えることができますどのように
(<span style='mso-tab-count:1'>)\s{2,}(<\/span>) 

で正規表現テスターでこれを参照してください。テキストエディタに入れますか?

感謝しているRegexの初心者があなたに感謝しています。また、タイムゾーンの違いにより、私はもう12時間、応答を確認して確認することができません。

+0

私は、カンマで区切られたリストに、ウェブサイト上の表データの2500文字を変換しています。この表にも約2500のスペースが含まれています。しかしソースコードは、テーブルのファイルサイズを50,000文字に膨らませるワードプロセッサによって生成されたもので、4000個は空白で、16,000個は見た目と関係のないXMLです。私はJavaやjsoupの使い方がわからないので、正規表現を使って膨らみとCSSを取り除き、データだけを残します。 – Commata

答えて

0

私はそれが印刷できない制御文字だと思います。私の16進エディタはそれが\x20だと言いますが、それは私のために捕らえられません。あなたの最善の策は、次のような除外を使用することになります。

(<span style='mso-tab-count:1'>)[^<]{2,}(<\/span>)

または

(<span style='mso-tab-count:1'>)\W{2,}(<\/span>)

+0

これは私が必要としたものです。 Th * nks! – Commata

関連する問題