2012-03-22 20 views
1

Nutch 1.4とsolr 3.3.0を使用して、フランス語で自分のサイトをクロールしてインデックスを作成しています。私のサイトは以前はiso8859-1だった。UTF-8文字が正しく表示されない

現在、私はsolrの下に2つのインデックスを持っています。最初のものは私の古いページ(iso8859-1)を保存し、2番目のものは私の新しいページ(utf-8)を保存します。

両方のクロールジョブに同じNutch設定を使用して、自分のサイトの古いページと新しいページを取得してインデックスを作成します。私は自分自身でチャーターエンコーディングに関する設定を追加していない(私は思う)。

私はutf-8にあると思われる新しいページを検索する際に問題に直面しています。フランス語の文字は正しく表示されません。しかし、iso8859-1の古いページの場合、すべてがうまくいくようです。

誰かがこの問題を解決するための正しい方向で私を指すことができたのだろうかと思っていました。

私は問題がnutchから来ていると思います。なぜなら、セグメントのダンプを作成したとき、私はダンプファイルでその面白いキャラクターを見ました。

ありがとうございます。

答えて

3

nutch-default.xmlには、「parser.character.encoding.default」の値をそれに応じて設定する必要があります。それをutf-8に設定するだけです。デフォルト値は "windows-1252"です。

+1

問題を解決したNikolayに感謝します。 – breakdown1986

0

私はNutchに精通していませんが、私は他のものでこれを見ました。

あなたがチェックしたり、やるべき物事のカップル:Webサーバー上の

  1. あなたの新しいページをコンテンツ交渉ではないかもしれないことかもしれまだ新しいページ用のUTF-8
  2. あなたのcharsetのメタタグbe iso8859-1

古いサイトのすべての古いページを取り、iconvのようなツールを使ってUTF-8に変換することをお勧めします。その後、Webサーバーで、すべてのテキストがUTF-8として扱われるように構成します(つまり、送信されたコンテンツタイプのヘッダーはUTF-8と言います)。

+0

こんにちはアダム、私はすでにあなたが上記のすべてのステップを完了しました。私はファイルがutf-8形式であることを100%確信しています。 – breakdown1986

+0

異なる文字セットである可能性があります。あなたはiso8859-1で、ウィンドウコードページではないと確信していますか(これは私に起こりました:http://stackoverflow.com/questions/5010000/java-convert-iso-8859-1-to-utf-8-with-correct-ユニコード文字) –

関連する問題