BeautifulSoupライブラリを使用して、ウェブサイトからいくつかの名前の名前を掻き出しようとしています。このWebサイトでは、の「windows-1250」文字セットが使用されていますが、一部の文字は正しく表示されません。和解の姓を参照してください。これはŽupkovでなければなりません。BeautifulSoupを使用して文字を正しく表示できない
この問題を解決できますか? これはコードです:
# imports
import requests
from bs4 import BeautifulSoup
from bs4 import NavigableString
# create beautifulsoup object
obce_url = 'http://www.e-obce.sk/zoznam_vsetkych_obci.html?strana=2500'
source_code = requests.get(obce_url)
plain_text = source_code.text
obce_soup = BeautifulSoup(plain_text, 'html.parser')
# define bs filter
def soup_filter_1(tag):
return tag.has_attr('href') and len(tag.attrs) == 1 and isinstance(tag.next_element, NavigableString)
# print settlement names
for tag in obce_soup.find_all(soup_filter_1):
print(tag.string)
私は、Python 3.5.1とbeautifulsoup 4.4.1を使用しています。
あなたの答えをありがとう。それは期待どおりに働いた。 – user21816