0
私は30 GBのテキストファイルを持っています。ファイルのエンコーディングはUTF8ですが、Windows-1252文字も含まれています。したがって、インポートしようとすると、次のエラーが発生します。混合エンコーディングファイルからPostgreSQLテーブルにインポートする方法
ERROR: invalid byte sequence for encoding "UTF8": 0x9b
どうすればこの問題を解決できますか?
ファイルにはすでにUTF8形式があります。このファイルの 'file'コマンドを実行すると、エンコードはUTF8と表示されます。 UTF8バイトシーケンスではないものも含まれています。問題は、バックスラッシュ(\
)によって引き起こされる
0B012234 Basic study of <img src="/fulltext-image.asp?format=htmlnonpaginated&src=323K744431152658_html\233_2 basic study of img src fulltext image asp format htmlnonpaginated src 323k744431152658_html 233_2 1975 Semigroup Forum semigroup forum 04861B53 19555
Linux/Unixまたはcygwin(ウィンドウ)で 'iconv'を使用します。 http://stackoverflow.com/questions/4867272/invalid-byte-sequence-for-encoding-utf8/4867690#4867690 –
@DuduMarkovitzファイルはすでにUTF8形式ですが、このファイルの 'file'コマンドを実行するとエンコードはUTF8です。 UTF8バイトシーケンスではないものも含まれています。どのようなinconvコマンドが助けることができますか? –
混合エンコードでサンプルを置くことはできますか? –