bs4でphytonのテキストを削り取る方法

URLページのすべてのコメントを掻き集めるスクレーパーを作成していますが、テキストをtxtファイルに保存しています（1コメント= 1 txt）。コメントのテキストに絵文字があるときに問題が発生しました。実際には、プログラムは停止し、 "UnicodeEncodeError： 'charmap'コーデックで文字をエンコードできません。どうすればこの問題に合格することができますか？誰にでもbs4でphytonのテキストを削り取る方法

q=requests.get(url) 
soup=BeautifulSoup(q.content, "html.parser") 
x=soup.find("a", {"class":"comments"}) 
y=x.find_all("div", {"class":"blabla"}) 
i=0 
for item in y: 
    name=str(i) 
    comment=item.find_all("p") 
    out_file=open('%s.txt'%CreatorName, "w")   
    out_file.write(str(comment) 
    out_file.close 
    i=i+1

ありがとう：

（私はBS4を使用しています）コードの構造は次のようです。

出典

2017-11-24 SerpeVerde

out_file = open（ '％s.txt'％name、 "w"） – SerpeVerde

私はあなたがWindows上にいると推測しています。あなたはLinux上で完全に動作します。絵文字は、メモ帳で正しく表示されないかもしれないが

out_file=open('%s.txt'%CreatorName, "w", encoding='utf-8')

これは、あなたが常にFirefoxや他のアプリケーションで開くことができ、エラーなしでファイルに書き込む必要があります。だから、あなたはこのようにUTF-8に開いたファイルのエンコーディングを変更あなたが絵文字を見たいならば。他のコメントテキストはメモ帳で読むことができます。

出典

2017-11-24 21:13:42

bs4でphytonのテキストを削り取る方法

答えて

関連する問題