ElasticSearchは、UTF8でのみデータを受け入れる検索サーバーです。インターネットから入手したテキストのUTF8変換
私は軽いレポーティング負荷の行で、潜在的にテキスト
中小企業以下ElasticSearchを与えることを試みる未満£44万の年間売上高を持つもの、未満£220,000純資産及びより少ないが含まれます従業員10人、」私のJavaアプリケーションを介して
- 基本的に私のJavaアプリケーションは、Webページからこの情報を取得し、elasticSearchに与えるESの苦情それは£を理解カント、それが失敗したコードの下に通して濾過した後 - 。。
byte bytes[] = s.getBytes("ISO-8859-1");
s = new String(bytes, "UTF-8");
ここ£
は�
に変換しかし、私はbashのを使って自分のホームディレクトリ内のファイルにコピーしたときに、それは罰金に移行します。任意のポインタが役立ちます。
http://xkcd.com/138/ –
@VineethMohanなぜあなたは '' GetBytesメソッド( "ISO-8859-1")を使用していますか?あなたはUTF-8で作業する必要があると思いましたか? – buruzaemon
私はベースコードを識別する必要があります。私はISO-8859-1としてテキストのエンコーディングを想定しています –