へのすべてのリンクを見つけて、私がイメージへのすべてのリンクを抽出したいです。私は今それを行う方法がある:「あなたはすべての可能な画像のすべてのケースで拡張子(「JPG」の両方をリストする必要がありパイソン、XPathは:私はいくつかのHTMLを解析するPythonでlxmlのを使用している画像
- と:
//a[contains(@href,'.jpg') or contains(@href,'.jpeg') or ... (etc)]
あり、このアプローチの問題のカップルですJPG」)は、ウィッヒは奇妙な状況で
- エレガントではない、hrefがない私は正規表現を使用していた
文字列の最後に、どこか途中での.jpgを含むことができ、私は失敗しました:
//a[regx:match(@href,'.*\.(?:png|jpg|jpeg)')]
これは、すべてのリンクのすべての時間を私に戻っ...
は、誰もがこれを行うには正しい、エレガントな方法を知っているか、私の正規表現のアプローチと間違っている何をしていますか?
良い質問、+1。あなたの問題の一つの解決のために私の答えを参照してください - だけ与えられた文字列で終わること@href見つけます。 –
部分文字列を記述するその他の回答に加えて、translate関数を使用して大文字と小文字の変換を行うことができます。 translate(@href、 "EGIJFNP"、 "egijfnp")(png、jpeg、gif内のすべての文字) – yonran
@yonran拡張子だけでなく、URLの残りの部分も変更するので、これはいい考えか分かりません。 –