base_url = "http://vesti.az"
link = "http://vesti.az"
#these two lines identifies character encoding
enc = urllib.request.urlopen(link).read()
print(chardet.detect(enc))
#end of charset identifier
page = requests.get(link)
print(page.encoding)
tree = html.fromstring(page.content)
links = tree.xpath('//div[@class="news-list"]/ul/li/a/@href') #here I get the last added news link
new_link = base_url + links[0]
if show_details == 1:
print(new_link)
info = requests.get(new_link)
agac = html.fromstring(info.content) #here I open last news link
newsTitle = agac.xpath('//title/text()') #here I get the news title
newsTitle = u''.join(newsTitle)
b0 = agac.xpath('//article[@class="article-content js-mediator-article"]//text()')
b0 = u"".join(b0)
b0 = b0.strip()
newsBody = b0 #re.sub("Oxunub:.*", "", b0, flags=re.DOTALL)
if show_details == 1:
print(new_link)
print(newsTitle) #here I print the news title
print(newsBody)
を示していないと、私はニュースのタイトルを印刷するとき、残念ながら、私はこのような何かを得る、ロシア語であります°Ð¹Ð'жанÐμÑполNNDD»ÑÑжÐμлоÐμND°Ð½ÐμниÐμвовÑÐμмÑнапаÐ'ÐμниÑнаÑпÑавÐÐμниÐμ» Ð¤Ð¡Ð| | Vesti.az | ÐлавнÑÐμновоÑÑиÐÐ・ÐμÑбайÐ'жана| ÐовоÑÑиÐÐ・ÐμÑбайÐ'ж°Ð½Ð°WebページはUTFで、内部のテキストは、私のpythonでWebページをつかむとき、それは正しく
これは間違いなく私が探していないことです。私はpythonファイルのエンコーディングを変更しようとしましたが、私は成功しませんでした。その問題を解決する方法はありますか?
私はハッシュ(#)を使用し、コード内で何をしているのか説明しました。
どうもありがとうございました。私は変更を綿密に調べて、それを手に入れました。どうもありがとう! – Sunuba