文字列から二重引用符で囲んだデータを抽出する必要があります。二重引用符でデータを効率的に抽出する
入力:
<a href="Networking-denial-of-service.aspx">Next Page →</a>
出力:現在
Networking-denial-of-service.aspx
、私はこれを行うには、次の方法を使用していますが、それは罰金を実行されています。
atag = '<a href="Networking-denial-of-service.aspx">Next Page →</a>'
start = 0
end = 0
for i in range(len(atag)):
if atag[i] == '"' and start==0:
start = i
elif atag[i] == '"' and end==0:
end = i
nxtlink = atag[start+1:end]
私の質問は、このタスクを実行する他の効率的な方法があるということです。
ありがとうございます。
を/regex.html)はもちろんですが、HTMLのためにそれらを使用することは強く推奨されています(http://stackoverflow.com/questions/590747/using-regular-expressions-to-parse-html-why-not)多くのケースを逃すことができます。 "正しい"方法は、[HTMLParser](https://docs.python.org/2/library/htmlparser.html)(またはその上にあるもの)を使用してHTMLを解析し、必要なノードを見つけてその属性を読んでください。 – CherryDT
@CherryDTサンプルコードなどを提供してください。 – dazzieta
私は実際にはPythonではないので、例を提供することは自信がありません。だからこれはコメントであり、答えではない。しかし、私が言ったことは(regexesがありますが、HTMLパーサーが好まれます)、他の言語にも当てはまります。 – CherryDT