2010-12-06 4 views
2

Python(openblock)でバッチインポートスクリプトを実行すると、 "UTF8"をエンコードするための次の無効なバイトシーケンスが得られます。アクセント文字:PythonとPostgresでバッチデータベースのインポートでアクセント付き文字を処理するには

それはとして表示:?

、NE GRAND-CH COUR DUをしかしである、実際に "GRAND-CHENE、COUR DU"

これを処理するための最良の方法は何ですか?理想的には、アクセント付きの文字を保持したいと考えています。私は何とかそれをエンコードする必要があると思う?

:the?実際にÊとされています。変数がESRIシェイプファイルから来ていることにも注意してください。おそらくアクセント記号のない文字列はすでにUnicode文字列なので、私はdavidcrowの解決策を試してみると、「Unicodeはサポートされていません」ということになります。ここで

は、私が使用しているESRIImporterコードです:

from django.contrib.gis.gdal import DataSource 

class EsriImporter(object): 
    def __init__(self, shapefile, city=None, layer_id=0): 
     print >> sys.stderr, 'Opening %s' % shapefile 
     ds = DataSource(shapefile) 

     self.layer = ds[layer_id] 
     self.city = "OTTAWA" #city and city or Metro.objects.get_current().name 
     self.fcc_pat = re.compile('^(' + '|'.join(VALID_FCC_PREFIXES) + ')\d$') 

    def save(self, verbose=False): 
     alt_names_suff = ('',) 
     num_created = 0 
     for i, feature in enumerate(self.layer): 
      #if not self.fcc_pat.search(feature.get('FCC')): 
      # continue 
      parent_id = None 
      fields = {} 
      for esri_fieldname, block_fieldname in FIELD_MAP.items(): 
       value = feature.get(esri_fieldname) 
       #print >> sys.stderr, 'Looking at %s' % esri_fieldname 

       if isinstance(value, basestring): 
        value = value.upper() 
       elif isinstance(value, int) and value == 0: 
        value = None 
       fields[block_fieldname] = value 
      if not ((fields['left_from_num'] and fields['left_to_num']) or 
        (fields['right_from_num'] and fields['right_to_num'])): 
       continue 
      # Sometimes the "from" number is greater than the "to" 
      # number in the source data, so we swap them into proper 
      # ordering 
      for side in ('left', 'right'): 
       from_key, to_key = '%s_from_num' % side, '%s_to_num' % side 
       if fields[from_key] > fields[to_key]: 
        fields[from_key], fields[to_key] = fields[to_key], fields[from_key] 
      if feature.geom.geom_name != 'LINESTRING': 
       continue 
      for suffix in alt_names_suff: 
       name_fields = {} 
       for esri_fieldname, block_fieldname in NAME_FIELD_MAP.items(): 
        key = esri_fieldname + suffix 
        name_fields[block_fieldname] = feature.get(key).upper() 
        #if block_fieldname == 'postdir': 
         #print >> sys.stderr, 'Postdir block %s' % name_fields[block_fieldname] 


       if not name_fields['street']: 
        continue 
       # Skip blocks with bare number street names and no suffix/type 
       if not name_fields['suffix'] and re.search('^\d+$', name_fields['street']): 
        continue 
       fields.update(name_fields) 
       block = Block(**fields) 
       block.geom = feature.geom.geos 
       print repr(fields['street']) 
       print >> sys.stderr, 'Looking at block %s' % unicode(fields['street'], errors='replace') 

       street_name, block_name = make_pretty_name(
        fields['left_from_num'], 
        fields['left_to_num'], 
        fields['right_from_num'], 
        fields['right_to_num'], 
        '', 
        fields['street'], 
        fields['suffix'], 
        fields['postdir'] 
       ) 
       block.pretty_name = unicode(block_name) 
       #print >> sys.stderr, 'Looking at block pretty name %s' % fields['street'] 

       block.street_pretty_name = street_name 
       block.street_slug = slugify(' '.join((unicode(fields['street'], errors='replace'), fields['suffix']))) 
       block.save() 
       if parent_id is None: 
        parent_id = block.id 
       else: 
        block.parent_id = parent_id 
        block.save() 
       num_created += 1 
       if verbose: 
        print >> sys.stderr, 'Created block %s' % block 
     return num_created 

出力:詳細についてはhttp://evanjones.ca/python-utf8.htmlを参照してください

uString = unicode(item.field, "utf-8")

:あなたが好きな何かを試すことができ

'GRAND-CH\xcaNE, COUR DU' 
Looking at block GRAND-CH�NE, COUR DU 
Traceback (most recent call last): 

    File "../blocks_ottawa.py", line 144, in <module> 
    sys.exit(main()) 
    File "../blocks_ottawa.py", line 139, in main 
    num_created = esri.save(options.verbose) 
    File "../blocks_ottawa.py", line 114, in save 
    block.save() 
    File "/home/chris/openblock/src/django/django/db/models/base.py", line 434, in save 
    self.save_base(using=using, force_insert=force_insert, force_update=force_update) 
    File "/home/chris/openblock/src/django/django/db/models/base.py", line 527, in save_base 
    result = manager._insert(values, return_id=update_pk, using=using) 
    File "/home/chris/openblock/src/django/django/db/models/manager.py", line 195, in _insert 
    return insert_query(self.model, values, **kwargs) 
    File "/home/chris/openblock/src/django/django/db/models/query.py", line 1479, in insert_query 
    return query.get_compiler(using=using).execute_sql(return_id) 
    File "/home/chris/openblock/src/django/django/db/models/sql/compiler.py", line 783, in execute_sql 
    cursor = super(SQLInsertCompiler, self).execute_sql(None) 
    File "/home/chris/openblock/src/django/django/db/models/sql/compiler.py", line 727, in execute_sql 
    cursor.execute(sql, params) 
    File "/home/chris/openblock/src/django/django/db/backends/util.py", line 15, in execute 
    return self.cursor.execute(sql, params) 
    File "/home/chris/openblock/src/django/django/db/backends/postgresql_psycopg2/base.py", line 44, in execute 
    return self.cursor.execute(query, args) 

django.db.utils.DatabaseError: invalid byte sequence for encoding "UTF8": 0xca4e 
HINT: This error can also happen if the byte sequence does not match the encoding expected by the server, which is controlled by "client_encoding". 
+0

"ソリューション"がUnicodeを生成していて、それを好きではないものに供給しているため、「サポートされていないUnicode」が表示されます。それをしないでください。 –

答えて

3

詳細をご覧ください。どのプラットフォーム?Windows/Linux/???

どのバージョンのPythonですか?

Windowsを実行している場合、エンコードはcp1252またはISO-8859-1である可能性が非常に高くなります。間違いなくUTF-8です。

以下が必要です。(1)入力データがどのようにエンコードされているかを調べる。試してくださいcp1252;それは通常の容疑者です。 (2)あなたのデータをユニコードにデコードし、(3)それをUTF-8にエンコードします。

ESRIシェイプファイルからデータをどのように取り出していますか?コードを表示する。完全なトレースバックとエラーメッセージを表示します。視覚的な問題を回避するには(それはE-grave!no、それはE-acuteです)print repr(the_suspect_data)そしてあなたの質問の編集に結果をコピー/ペーストしてください。太字で簡単に行けます。

+0

@Chris:オタワ - > 'cp1252'。 'django.contrib.gis.gdal.DataSource'のドキュメントを参照して、どこにでもエンコーディングが記述されているかどうかを確認する必要があります。いずれにしても、UTF-8でデータをデータベースに格納する必要がある場合は、「esri_text.decode( 'whatever')を実行する必要があります。encode( 'utf8') '何とか)。 –

+0

私は何をしましたか - エンコーディングに関するドキュメントには何もありませんでしたが、デコードがエンコードされていました。本当にありがとう!エンコーディングの世界で私の周りを包み込むことはまだたくさんあります。 – Chris

-3

UnicodeとPython。

+0

あなたは彼がpythonのソースコード内のデータベースにダンプしている文字列をハードコーディングしていると仮定していますか?それがこれを使っている唯一のカイズです。 – jsbueno

+0

オブジェクトまたはリストに値を割り当てることが前提でした。データがどこから来ているのかを知らなければ、個々の文字列を超えて抽象化する価値はありませんでした。 – davidcrow

+0

このケースでは、実際には個々の文字列のためだけに実際にやってみるといいと思います。申し訳ありませんが、最初からコードを含めませんでした。 – Chris

1

データがUTF-8として送信されていないように見えるので、データを照合するDBセッションのclient_encodingパラメータをチェックするか、ファイルを読むときにPython内のUTF-8/Unicodeに変換してください。

「SET client_encoding = 'ISO-8859-1'」などを使用して、DBセッションのクライアントエンコーディングを変更できます。 0xcaはLatin1のE-with-graveではありませんが、あなたのファイルをエンコードしている文字がわからないのですか?

+0

他のすべての文字列にはアクセント付き文字が含まれていないので、 "Unicodeはサポートされていません。 "エラーが発生します。これは、文字列がすでにUnicodeの場合に発生します。だから、アクセントを含む文字や文字列が問題なのでしょうか? – Chris

+0

正確にどこからそのエラーがスローされますか?私はPythonに精通していませんが、私が覚えているPostgreSQLのエラーのようには聞こえません。 – araqnid

+0

0xcaは、ISO-8859-1 btwのE付き円記号であるため、意味があります。真剣に、dbセッションのclient_encoding設定を変更するだけで、文字をデータベースにデコードするためのバックをデータベースに渡すことができます。 – araqnid

関連する問題