Pythonで 'utf-8'エンコーディングを効率的に解析する方法

-1

ラズベリー3にHTTPプロキシサーバーがあります。 XMLデータはBeautifulSoup（BS）によって分析されます。データに「ASCII」形式の文字しか含まれていないとき、BSは超高速でした。しかし、文字の一部が「ASCII」を超えていた場合、BSは非常に遅くなりました（150kbのXML文字列の場合、10秒以上かかる場合があります）。また、elementtree構造体とXML.domも試しました。両方とも遅かった。 XML.saxははるかに優れていましたが、私のpython 2.7.13のラズベリー版では、XML.saxは 'ASCII'しか扱えませんでした。私はサックスを使用する前にdata.encode（ 'ascii'、 'ignore'）を使用する必要がありますが、これも長くかかりました。私はutf8形式のXML文字列を扱う良い方法があるのだろうかと疑問に思っていますか？ Pythonで 'utf-8'エンコーディングを効率的に解析する方法

出典

2017-04-07 Yu Xuan

'xml.sax.parseString（data.decode（ 'utf-8'））'のようなpythonの専門家はいないでしょうか？代わりにユニコードにデコードします。この素晴らしいプレゼンテーションもご覧ください：https://www.youtube.com/watch?v=Mx70n1dL534 – Niloct

sax.parseStringはヘルパー関数であり、parser.parse（）とは異なります。 utf-8形式はサポートされていません。これは、saxフォルダの__init__.pyにあります。これは、Unicodeを処理できないcStringIOからStringIOをインポートします。 –

http://stackoverflow.com/questions/1817695/python-how-to-get-stringio-writelines-to-accept-unicode-string – Niloct

は自動的に応答内容をデコードし、 "文字列" にそれを返すだろうBS

response=requests.post(url) 
soup=BeautifulSoup(response.text,'xml')

response.text

で "XML" 応答を分析します。しかしながら、BSは、復号化が成功するまで、異なる可能な復号化方法を試みる。これには時間がかかります。

response.text

前

使用

response.encoding='utf-8'

（私は「ASCII」は、復号方式リストの最初の場所にあり、それは「ASCII」の内容は、高速デコードされた理由だと思います） BSに応答内容の解読方法を伝える。そして、はるかに速く進むでしょう。

出典

2017-04-14 20:47:57

Pythonで 'utf-8'エンコーディングを効率的に解析する方法

答えて

関連する問題