単語を単語にしてリストを文字列に変換する

私はこの1つに困惑していると言いました。私は、段落からテキストを抽出しています：単語を単語にしてリストを文字列に変換する

paragraphs = re.sub(r'\<.*?\>', '', paragraphs)

問題は、Pythonは文字列を期待していることである：

paragraphs = re.findall(r'(<p(.*?)</p>)', html)

は、その後、私はタグをスクラップし、言葉だけで段落テキスト、単語を維持したいです。私がそれを正しく理解すれば、まず「段落」を文字列にする必要があります。しかし、私がするとき：

paragraphs = str(paragraphs)

...私は文字で文字の文字を取得し、単語が壊れています。まあ、私はPythonには新しく、これは私を混乱させます。

第1質問：なぜ「段落」は文字列で始まらないのですか？

第二の質問：どのように私は言葉で単語それを維持、文字列に「段落」を変換しない、など：

paragraph = ['Two', 'words']

2016-04-18 VillaRava

re.findall()試合のリストを返します。代わりにre.search()が必要です。

より良いオプションは、しかしBeautifulSoupのように、HTMLパーサを使用することです：

2016-04-18 17:29:52 alecxe

答えて