2016-12-29 8 views
0

私は30 GBのテキストファイルを持っています。ファイルのエンコーディングはUTF8ですが、Windows-1252文字も含まれています。したがって、インポートしようとすると、次のエラーが発生します。混合エンコーディングファイルからPostgreSQLテーブルにインポートする方法

ERROR: invalid byte sequence for encoding "UTF8": 0x9b 

どうすればこの問題を解決できますか?

ファイルにはすでにUTF8形式があります。このファイルの 'file'コマンドを実行すると、エンコードはUTF8と表示されます。 UTF8バイトシーケンスではないものも含まれています。問題は、バックスラッシュ(\)によって引き起こされる

0B012234 Basic study of <img src="/fulltext-image.asp?format=htmlnonpaginated&src=323K744431152658_html\233_2 basic study of img src fulltext image asp format htmlnonpaginated src 323k744431152658_html 233_2 1975  Semigroup Forum semigroup forum 04861B53  19555 
+0

Linux/Unixまたはcygwin(ウィンドウ)で 'iconv'を使用します。 http://stackoverflow.com/questions/4867272/invalid-byte-sequence-for-encoding-utf8/4867690#4867690 –

+0

@DuduMarkovitzファイルはすでにUTF8形式ですが、このファイルの 'file'コマンドを実行するとエンコードはUTF8です。 UTF8バイトシーケンスではないものも含まれています。どのようなinconvコマンドが助けることができますか? –

+0

混合エンコードでサンプルを置くことはできますか? –

答えて

0

:それはこの行のために、上記のエラーを与えている間、私は後に、\ copyコマンドを実行したときに例えば。
バックスラッシュを特殊文字として扱わないCSV形式を使用します。 -

\copy t from myfile.txt with csv quote E'\x1' delimiter E'\x2' 
関連する問題