BeautifulSoupから正確なテキストが得られません

HTMLページから正確なテキストを取得しようとしていますが、出力テキストが予想されるテキストと異なります。BeautifulSoupから正確なテキストが得られません

HTMLページ上のテキスト

Салнас 14

beautifulSoup

ĐĄĐ°ĐťĐ˝Đ°Ń 14

によって

テキストショーは私のコードは

page = BeautifulSoup(url.read(),'html.parser') 
page.find(id='tdo_11').text

です

HTMLはdiv要素

<td class="ads_opt" id="tdo_11" nowrap=""><b>Салнас 14</b></td>

ためのコードを調べ、私はこれを引き起こすもの理解していませんよ？別のパーサーを使用する必要がありますか？

出典

2017-07-05 piyush singh

テキストエンコーディングを変更しようとしましたか？ – Krishh

あなたはページがどの文字エンコーディングを使用しているかを知る必要があります。 UTF8。 –

私にはエンコードの問題のようです。ページで使用する文字エンコードを使用してテキストをエンコードしようとしましたか？ – SRC

HTTPリクエストを行うためにrequestsライブラリを使用してください。これは、Pythonが多くの理由で組み込んだものよりはるかに優れています。自動的かつ知的にエンコーディングを処理します。

import requests 
response = requests.get('https://www.ss.lv/msg/ru/real-estate/flats/riga/plyavnieki/onlol.html') 
page = BeautifulSoup(response.text, 'html.parser')

出典

2017-07-05 08:48:55

ありがとうございます、うまくいきます。 –

BeautifulSoupから正確なテキストが得られません

答えて

関連する問題