2017-02-09 9 views
0

私は、mysql dbからSOLRインデックスにデータを注入する必要があります。私のDBの中のpbは私のDBでUTF8であり、アクセントがあるのでLATIN1でそれらを変換する必要があります。 考えていますか?SOLR + Mysql:utf8をlatin1に変換する方法

+0

SolrはネイティブにUTF-8を使用しますが、DBが実際には接続のためにUTF-8を使用していることを確認してください(ドライバが接続しているときは 'SET NAMES UTF8;'可能な場合はJDBC文字列を使用します)。 – MatsLindh

答えて

1

一般に、UTF8は現在U​​nicodeの全範囲に及ぶため、現在は1,112,064コードポイント、Latin1は256個以下です。あなたのテキストがLatin1で完全にカバーされている言語であれば、255を超えるコードポイントを表すUTF8文字を単に除外することができます(これを行う実際の方法は使用している技術に依存しています。

あなたの言語では256文字以下の文字が使用されていても、テキストにはUTF8以外の文字以外の文字が含まれている可能性があります。これは一般的な問題ですが、Latin1を検索エンジンインデックスあなたはおそらく文字以外の文字を無視することができます(これらはemojis、今日のネットでは非常に一般的な文字、YMMVを含みます)

私はなぜUTF-8を使うことができないのか分かりません。

+0

ok、その場合、私はsolrを使ってはいけません。私は私のdataimportを起動すると、私はインスタンス "Vincent 5Ã"私のデータベースと私のsolrで "ヴィンセント5à"を希望している。多分それはsolr設定の問題でしょうか?手伝って頂けますか ? – Vince

+0

さて、[ここ](https://wiki.apache.org/solr/FAQ#Why_don.27t_International_Characters_Work.3F)を始めることができます。より多くのヘルプが必要な場合は、関係するすべてのサーバーやクライアントで使用しているオペレーティングシステムとアプリケーションソフトウェア、発行するコマンド、関連するすべての詳細を指定して質問を編集する必要があります。あなたが書いたもの( "Vincent 5Ã")から、私はSolrにインポートするよりDBから正しくエクスポートすることがより問題になると思うでしょうが、詳細は言えません。 – Dario

関連する問題