2016-11-06 8 views
1

私はBeautifulSoupを使ってHTML文書からテキストを取り込み、ある種の分析のためにNLTKに渡します。 HTMLファイルに改ページがあります。ページ区切りにより、連続する段落が分割されています。BeautifulSoupで改ページを取り除く

from bs4 import BeautifulSoup 
soup = BeautifulSoup(html, "html5lib") 
txt = (soup.get_text()) 
print(txt) 

スプリットの段落では、次のようになります。

文書が複数の段落が含まれています。段落のそれぞれは、言葉で作られたいくつかの

-6-

文章で構成されています。言葉は文字でできています。

ページ区切りを削除して完全な段落を使用する方法についての考え方はありますか?

+0

あなたの「ページ区切り」はすべて、この例で説明している形式ですか?すなわち、 - ページ - そして空白の束? – mircealungu

+0

迅速な対応に感謝します。ええ、彼らはすべてそれに似ています。 – ashap

答えて

0

あなたは次のようになり、あなたのテキスト文字列から削除するには、次の正規表現を使用することができます:\ n \ nは... -number- \ N \ N ...

import re 
s=re.sub(r'\n+-[0-9]+-\n+', '', txt) 

この場合、私に教えてください役に立った:

+0

これはページ番号とすべてのスペースを削除するように機能しましたが、段落はまだ2つに分割されています。 これは次のようになります。 文書にはいくつかの段落が含まれています。段落のそれぞれは、いくつかの単語で構成された文章で構成されています。言葉は文字でできています。 – ashap

+0

Hmm。あなたが「このように」言ったら、それは私には大丈夫です。私は問題が何であるか分からない:) – mircealungu

+0

段落の間にまだ改行がありました。 .strip()を使用して文字間のスペースをすべて削除しました。完璧ではありませんが、私がやろうとしていたことに対する回避策です。 もう一度お世話になります!とても有難い! – ashap

関連する問題