私はpostgreSQLデータベースで作業していますが、ロシア語、中国語、韓国語、英語などのさまざまな言語のテキスト列があります。 UTF-8以外の文字。非UTF8でエンコードされた非表示の文字を特定する
例えば、notepad ++の画像がエンコード>エンコードをUTF-8で行った場合、すべての認識できない文字がきれいに表示されます。
しかし、ポストグルでは処理不能なレコードをマークすることに問題があります。フラグのようなものもあるはずですが、私は以下のようなものを試していますが、notepad ++は非表示/非UTF-8文字を明示的に示しています。
これらの文字についての奇妙なことは、彼らが定期的に選択クエリを表示されませんが、私は彼らが「UTF-8」に変換するときに、それらは以下のように現れていることです。
は(クエリ以下)は、このような何かをしようとしましたが、すなわち私に所望の出力を与える動作するようには思えません。隠れたHTML参照が無効で、スナップショット内の有効なロシア語の文のような有効なテキストを失わないようなレコードにフラグを設定することが期待されます。そのようなテキストだけを明確に識別することができなければならない。
select text, text ~ '[^[:ascii:]]', text ~ '^[\x00-\x7F]*$'
from sample_data;
サンプルデータ -
"ЯненаркоманЭтоуменявсегда、когдамнеафигитительноАеслисерьёзно、этоинтересно、...。。"
「雅ルdieronアモール#UberCALAVERITAの写真は? "
"СегоднявалютныестратегиBMOобновилипрогнозыпоосновнымвалютамнаближайшиепятькварталов(наконецпериода):читатьдалее..." "グループのONトロントでのエグゼクティブAdmininstrativeアシスタント、"
「Flicitations恩恵を受ける6つのトロフィー#FundGradeAと2016年のドンはプレースメントを交信します: "