2016-10-13 10 views
-1

前に、すべてのものを抽出します。正規表現は後に、私はこれから抽出する必要があり、特定のテキスト

だから、

<meta content=" 

後、すべてのようなものになるだろう。また

name="keywords". 

前に、パイソンを使用して、私はリストの要素として、すべての名前をつけたいと思います。私は異なる文字列のためにこれを何回も繰り返し、名前の量は変わります(この場合、2つではなく4つの名前になる可能性があります)。

どうすればいいですか?私は

re.findall(r'(?<=content=",)[^.]+(?=name=)', names) 

答えて

1

をすることによってそれを行うことができました

1

これはあなたを助けるかもしれない:

# -*- coding: utf-8 -*- 
import re 
or_str = '<meta content=",\n\n\nÓscar Mauricio Lizcano Arango,\n\n\n\n\n\n\n\nBerner León Zambrano Eraso,\n\n\n\n\n" name="keywords"><meta content="Congreso Visible - Toda la información sobre el Congreso Colombiano en un solo lugar" property="og:title"/><meta content="/static/img/logo-fb.jpg"' 
new_str = or_str.replace("\n","") 
li = re.findall('meta content=",(.*)" name="keywords"', new_str); 
new_str = ''.join(li) 
print re.findall('(.*?),',new_str) 

私はNULLに、すべての改行文字\nを変更するreplace()メソッドを使用していました。
次に、findallを使用して名前を探し、それをリストに入れて、findallがリストを返すので、findallを使用してすべての名前をリストの要素として格納しました。

関連する問題