2017-11-24 5 views
0

URLページのすべてのコメントを掻き集めるスクレーパーを作成していますが、テキストをtxtファイルに保存しています(1コメント= 1 txt)。 コメントのテキストに絵文字があるときに問題が発生しました。実際には、プログラムは停止し、 "UnicodeEncodeError: 'charmap'コーデックで文字をエンコードできません。どうすればこの問題に合格することができますか?誰にでもbs4でphytonのテキストを削り取る方法

q=requests.get(url) 
soup=BeautifulSoup(q.content, "html.parser") 
x=soup.find("a", {"class":"comments"}) 
y=x.find_all("div", {"class":"blabla"}) 
i=0 
for item in y: 
    name=str(i) 
    comment=item.find_all("p") 
    out_file=open('%s.txt'%CreatorName, "w")   
    out_file.write(str(comment) 
    out_file.close 
    i=i+1 

ありがとう:

(私はBS4を使用しています)コードの構造は次のようです。

+0

out_file = open( '%s.txt'%name、 "w") – SerpeVerde

答えて

0

私はあなたがWindows上にいると推測しています。あなたはLinux上で完全に動作します。絵文字は、メモ帳で正しく表示されないかもしれないが

out_file=open('%s.txt'%CreatorName, "w", encoding='utf-8') 

これは、あなたが常にFirefoxや他のアプリケーションで開くことができ、エラーなしでファイルに書き込む必要があります。だから、あなたはこのようにUTF-8に開いたファイルのエンコーディングを変更あなたが絵文字を見たいならば。他のコメントテキストはメモ帳で読むことができます。

関連する問題