私は本当に奇妙な問題があります。私はHTMLサイトでURLを検索していて、URLの特定の部分だけを必要としています。Regexが利用可能なテキストの数が多い
perl -ne 'm/http\:\/\myurl\.com\/somefile\.php.+\/afolder\/(.*)\.(rar|zip|tar|gz)/; print "$1.$2\n";'
サンプル入力は、このようなものになるだろう:
私のテストHTMLページ内のリンクは一度しか発生し、代わりつの結果の私は、約20を得る...これは使用して私の正規表現のイムです非常に簡単な例である
<html><body><a href="http://myurl.com/somefile.php&x=foo?y=bla?z=sdf?path=/foo/bar/afolder/testfile.zip?more=arguments?and=evenmore">Somelinknme</a></body></html>
です。その本当のリンクは私の結果はこのようなものでなければなりません...周りのコンテンツで、通常のウェブサイトに
をapperます:
testfile.zip
ではなく、私は非常に多くの場合、この行を参照してください...このAです正規表現やその他の問題の問題?
サンプル入力と出力を分かりやすくするために投稿する必要があります。 – tuxuday
@tuxudayがいくつか追加されました – reox
daximがHTMLパーサーを使用してHTMLを解析すると答えました。あなたはそれが生成する結果に正規表現を使用することができ、多くの解析苦痛から身を守ります。 –