Python urlparse.parse_qs unicode url

urlparse.parse_qsは、URLパラメータを解析するのに便利です。単純なASCII URL（str）で正常に動作します。だから私は、クエリを解析し、解析されたデータからurllib.urlencodeを使用して同じパスを作成することができますPython urlparse.parse_qs unicode url

>>> import urlparse 
>>> import urllib 
>>> 
>>> path = '/?key=value' #path is str 
>>> query = urlparse.urlparse(path).query 
>>> query 
'key=value' 
>>> query_dict = urlparse.parse_qs(query) 
>>> query_dict 
{'key': ['value']} 
>>> '/?' + urllib.urlencode(query_dict, doseq=True) 
'/?key=value' # <-- path is the same here

また、URLはパーセントエンコードされた非ASCIIのparamが含まれている場合、正常に動作します：

>>> value = urllib.quote(u'значение'.encode('utf8')) 
>>> value 
'%D0%B7%D0%BD%D0%B0%D1%87%D0%B5%D0%BD%D0%B8%D0%B5' 
>>> path = '/?key=%s' % value 
>>> path 
'/?key=%D0%B7%D0%BD%D0%B0%D1%87%D0%B5%D0%BD%D0%B8%D0%B5' 
>>> query = urlparse.urlparse(path).query 
>>> query 
'key=%D0%B7%D0%BD%D0%B0%D1%87%D0%B5%D0%BD%D0%B8%D0%B5' 
>>> query_dict = urlparse.parse_qs(query) 
>>> query_dict 
{'key': ['\xd0\xb7\xd0\xbd\xd0\xb0\xd1\x87\xd0\xb5\xd0\xbd\xd0\xb8\xd0\xb5']} 

>>> '/?' + urllib.urlencode(query_dict, doseq=True) 
'/?key=%D0%B7%D0%BD%D0%B0%D1%87%D0%B5%D0%BD%D0%B8%D0%B5' # <-- path is the same here

しかし、ジャンゴを使用して、私はrequest.get_full_path()を使用してURLを取得し、それがunicode文字列としてパスを返します。

>>> path = request.get_full_path() 
>>> path 
u'/?key=%D0%B7%D0%BD%D0%B0%D1%87%D0%B5%D0%BD%D0%B8%D0%B5' # path is unicode

は今何が起こるか見て：

>>> query = urlparse.urlparse(path).query 
>>> query 
u'key=%D0%B7%D0%BD%D0%B0%D1%87%D0%B5%D0%BD%D0%B8%D0%B5' 
>>> query_dict = urlparse.parse_qs(query) 
>>> query_dict 
{u'key': [u'\xd0\xb7\xd0\xbd\xd0\xb0\xd1\x87\xd0\xb5\xd0\xbd\xd0\xb8\xd0\xb5']} 
>>>

query_dictには、バイトを含むユニコード文字列が含まれています。ユニコードポイントではありません！そして、その文字列をURLENCODEしようとすると、当然のことながら、私は、UnicodeEncodeErrorをを持っている：

>>> urllib.urlencode(query_dict, doseq=True) 
Traceback (most recent call last): 
    File "<stdin>", line 1, in <module> 
    File "C:\Python27\Lib\urllib.py", line 1337, in urlencode 
    l.append(k + '=' + quote_plus(str(elt))) 
UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-15: ordinal not in range(128)

は現在、私は解決策を持っている：

# just convert path, returned by request.get_full_path(), to `str` explicitly: 
path = str(request.get_full_path())

だから質問は以下のとおりです。

理由parse_qsは非常に奇妙な文字列（ユニコード、バイトを含む）を返しますか？
URLをstrに変換するのは安全ですか？前に戻ってバイトから

出典

2013-05-17 stalk

エンコードASCIIを使用して、.parse_qs()に渡す：

query_dict = urlparse.parse_qs(query.encode('ASCII'))

これはstr()としてではなく、明示的なエンコーディングで同じことを行います。はい、これは安全です。URLエンコードでは、ASCIIコードポイントのみを使用します（）。

parse_qsにユニコード値が渡されたので、ユニコード値も返しました。バイトをデコードするのは仕事ではありません。

出典

2013-05-17 17:24:00

Python urlparse.parse_qs unicode url

答えて

関連する問題