私はpython3でクロールを勉強しています。 HTMLコードからテキストのみを抽出したい。だから、HTMLPython3エンコーディングの問題
<div class='titleArea'>
"~~~~~ text~~~~"
</div>
で
EX)、私は私が[0]の.text)title_temp(そのプリントを知っているが、それは問題ではありません**テキスト
title_temp = soup.findAll('div',class_='titleArea')
print(title_temp)
を抽出するために、このコードを書きました
結果は
ですこの絵の内容は
[<div class='titleArea'>
@#$!$^[email protected]#[email protected]^#!$^[email protected]#[email protected]#[email protected]#
</div>]
[<div class='titleArea'>
@#$!$^[email protected]#[email protected]^#!$^[email protected]#[email protected]#[email protected]#
</div>]
*** 2つのリストが繰り返されている理由です。
私はそのテキストを望んでいません。
どうすればよいですか?
私はそれがutf-8問題だと思います。
右か?
ので、
は、私は何も影響はありませんでした、
# -*- coding: utf-8 -*-
ことを書きましたけど。
URLを投稿してコードを要求します。 –
「私はそのテキストを望んでいません」とは何ですか? ?あなたが望む正確な出力を投稿してください。 –
urlはhttp://hri.co.kr/board/reportView.asp?firstDepth=1&secondDepth=1&numIdx=26865 です。それぞれ「~~~~テキスト」〜「~~~」と正確に一致させたい投稿のタイトル – StackQ