2016-12-08 4 views
0

私はPythonとBeautifulSoupを使ってウェブサイトから情報を得ることができます。 しかし、特殊文字を含むパスがあるとエラーが発生します。特殊文字を含むパスをパッケージで動作させる方法

イタリア語では、à、è、ì、ò、ùなどの特殊文字があります。 手動でa、e、i、o、uの構文解析を設定すると、 しかし、私がBeautifulSoupを使用して自動的に解析すると、エラーが発生します。 これらの文字を単純な母音に変換する方法を知っていますか?

私は自分のコードの先頭に次の設定を置く:

#!/usr/bin/env python 
# -*- coding: utf-8 -*- 
+0

をあなたは[発音区別符号を除去する]探しています(http://stackoverflow.com/q/517923/364696)?あなたが話している様々なアクセント記号は発音区別記号です。それが目標かどうかは不明です。 – ShadowRanger

答えて

0

は、パッケージunidecodeを使用してください。私はこれを使用する方法については、以下のコードサンプルを与えてくれた:

from unidecode import unidecode as ud 
italian_string = "L'italiano è classificato al 21º" 
ud(italian_string) 

最後の行が返されます。

=> "L'italiano e classificato al 21o" 
+0

問題は、私がウェブスクレイピングをしていることです。レクターはこうして返されました: "é"。私があなたのシステムを使用している場合、文字は "A(c)"になります –

+0

これについては、https://repl.it/languages/python3で完全に動作してください。エンコードされた文字列は何ですか? – AER

+0

''è "'の代わりに '' '' ''を得ると、あなたのデータはUTF-8でエンコードされます。 – cco

関連する問題