私はBeautifulSoupを使ってHTML文書からテキストを取り込み、ある種の分析のためにNLTKに渡します。 HTMLファイルに改ページがあります。ページ区切りにより、連続する段落が分割されています。BeautifulSoupで改ページを取り除く
from bs4 import BeautifulSoup
soup = BeautifulSoup(html, "html5lib")
txt = (soup.get_text())
print(txt)
スプリットの段落では、次のようになります。
文書が複数の段落が含まれています。段落のそれぞれは、言葉で作られたいくつかの
-6-
文章で構成されています。言葉は文字でできています。
ページ区切りを削除して完全な段落を使用する方法についての考え方はありますか?
あなたの「ページ区切り」はすべて、この例で説明している形式ですか?すなわち、 - ページ - そして空白の束? – mircealungu
迅速な対応に感謝します。ええ、彼らはすべてそれに似ています。 – ashap