Nutch 1.4とsolr 3.3.0を使用して、フランス語で自分のサイトをクロールしてインデックスを作成しています。私のサイトは以前はiso8859-1だった。UTF-8文字が正しく表示されない
現在、私はsolrの下に2つのインデックスを持っています。最初のものは私の古いページ(iso8859-1)を保存し、2番目のものは私の新しいページ(utf-8)を保存します。
両方のクロールジョブに同じNutch設定を使用して、自分のサイトの古いページと新しいページを取得してインデックスを作成します。私は自分自身でチャーターエンコーディングに関する設定を追加していない(私は思う)。
私はutf-8にあると思われる新しいページを検索する際に問題に直面しています。フランス語の文字は正しく表示されません。しかし、iso8859-1の古いページの場合、すべてがうまくいくようです。
誰かがこの問題を解決するための正しい方向で私を指すことができたのだろうかと思っていました。
私は問題がnutchから来ていると思います。なぜなら、セグメントのダンプを作成したとき、私はダンプファイルでその面白いキャラクターを見ました。
ありがとうございます。
問題を解決したNikolayに感謝します。 – breakdown1986