BeautifulSoupで改ページを取り除く

私はBeautifulSoupを使ってHTML文書からテキストを取り込み、ある種の分析のためにNLTKに渡します。 HTMLファイルに改ページがあります。ページ区切りにより、連続する段落が分割されています。BeautifulSoupで改ページを取り除く

from bs4 import BeautifulSoup 
soup = BeautifulSoup(html, "html5lib") 
txt = (soup.get_text()) 
print(txt)

スプリットの段落では、次のようになります。

文書が複数の段落が含まれています。段落のそれぞれは、言葉で作られたいくつかの

-6-

文章で構成されています。言葉は文字でできています。

ページ区切りを削除して完全な段落を使用する方法についての考え方はありますか？

2016-11-06 ashap

あなたの「ページ区切り」はすべて、この例で説明している形式ですか？すなわち、 - ページ - そして空白の束？ – mircealungu

迅速な対応に感謝します。ええ、彼らはすべてそれに似ています。 – ashap

あなたは次のようになり、あなたのテキスト文字列から削除するには、次の正規表現を使用することができます：\ n \ nは... -number- \ N \ N ...

import re 
s=re.sub(r'\n+-[0-9]+-\n+', '', txt)

この場合、私に教えてください役に立った：

2016-11-06 20:50:35 mircealungu

これはページ番号とすべてのスペースを削除するように機能しましたが、段落はまだ2つに分割されています。これは次のようになります。文書にはいくつかの段落が含まれています。段落のそれぞれは、いくつかの単語で構成された文章で構成されています。言葉は文字でできています。 – ashap

Hmm。あなたが「このように」言ったら、それは私には大丈夫です。私は問題が何であるか分からない:) – mircealungu

段落の間にまだ改行がありました。 .strip（）を使用して文字間のスペースをすべて削除しました。完璧ではありませんが、私がやろうとしていたことに対する回避策です。もう一度お世話になります！とても有難い！ – ashap

答えて