2016-04-18 18 views
0

私はこの1つに困惑していると言いました。私は、段落からテキストを抽出しています:単語を単語にしてリストを文字列に変換する

paragraphs = re.sub(r'\<.*?\>', '', paragraphs) 

問題は、Pythonは文字列を期待していることである:

paragraphs = re.findall(r'(<p(.*?)</p>)', html) 

は、その後、私はタグをスクラップし、言葉だけで段落テキスト、単語を維持したいです。私がそれを正しく理解すれば、まず「段落」を文字列にする必要があります。しかし、私がするとき:

paragraphs = str(paragraphs) 

...私は文字で文字の文字を取得し、単語が壊れています。まあ、私はPythonには新しく、これは私を混乱させます。

第1質問:なぜ「段落」は文字列で始まらないのですか?

第二の質問:どのように私は言葉で単語それを維持、文字列に「段落」を変換しない、など:

paragraph = ['Two', 'words'] 

答えて

2

re.findall()試合のリストを返します。代わりにre.search()が必要です。

より良いオプションは、しかしBeautifulSoupのように、HTMLパーサを使用することです:

​​
関連する問題