2017-12-11 15 views
-1

私は英語と韓国語の2つの言語のデータを持っています。私はすでに英語のデータを索引付けしています。私は韓国語のデータを索引付けする必要があります。私はいくつかの研究を行い、いくつかの言語のための組み込みのサポートがあることを発見しましたが、私は他の言語のためにどのように見えるかのように、そこに明示的に韓国語を見つけることができません。ドイツ語、フランス語など私は韓国語のためにそれをする方法に固執しています。私はコピーを作成し、text_general_cjkとしてそれを置くが、私は以下無効unknown_field_typeのフィールド名のtext_general_cjkとしてSolrで異なる言語インデックスを作成

をエラーを得たので、私は、フィールド上のCJKトークナイザを使用してみました

はスキーマにtext_generalあるフィールド1と言う、私のスキーマです私はasr_hypothesis、nlg_output、nlu_utteranceのみを更新する必要があります。ファイルには2つの言語のいずれかのデータが含まれています。

あなたが名前のFIELDTYPEを指定する必要がありますので、スキーマはそれに応じて

<?xml version="1.0" encoding="UTF-8" ?> 

<schema name="default-config" version="1.6"> 

<field name="id" type="string" indexed="true" stored="true" required="true" multiValued="false" /> 
<!-- docValues are enabled by default for long type so we don't need to index the version field --> 
<field name="_version_" type="plong" indexed="false" stored="false"/> 
<field name="_root_" type="string" indexed="true" stored="false" docValues="false" /> 
<field name="_text_" type="text_general" indexed="true" stored="false" multiValued="true"/> 
<field name="sid" type="strings" indexed="false" stored="true" multiValued="false" default=" "/> 
<field name="model_id" type="strings" indexed="true" stored="true" multiValued="false" default=" "/> 
<field name="language_code" type="strings" indexed="true" stored="true" multiValued="false" default=" "/> 
<field name="country_code" type="strings" indexed="true" stored="true" multiValued="false" default=" "/> 
<field name="client_datetime" type="strings" indexed="false" stored="true" multiValued="false" default=" "/> 
<field name="bixby_version" type="strings" indexed="true" stored="true" multiValued="false" default=" "/> 
<field name="resource_flag" type="strings" indexed="false" stored="true" multiValued="false" default=" "/> 
<field name="command_mode_04" type="strings" indexed="false" stored="true" multiValued="false" default=" "/> 
<field name="command_mode_08" type="strings" indexed="false" stored="true" multiValued="false" default=" "/> 
<field name="utterance_type" type="strings" indexed="false" stored="true" multiValued="false" default=" "/> 
<field name="output_method" type="strings" indexed="false" stored="true" multiValued="false" default=" "/> 
<field name="audio_length" type="strings" indexed="false" stored="true" multiValued="false" default=" "/> 
<field name="asr_hypothesis" type="text_general" indexed="true" stored="true" multiValued="false" default=" "/> 
<field name="asr_silence" type="strings" indexed="false" stored="true" multiValued="false" default=" "/> 
<field name="agent" type="strings" indexed="true" stored="true" multiValued="false" default=" "/> 
<field name="command_name" type="strings" indexed="false" stored="true" multiValued="false" default=" "/> 
<field name="screen_states" type="strings" indexed="false" stored="true" multiValued="false" default=" "/> 
<field name="rule_id" type="strings" indexed="false" stored="true" multiValued="false" default=" "/> 
<field name="is_root" type="strings" indexed="false" stored="true" multiValued="false" default=" "/> 
<field name="app_list" type="strings" indexed="false" stored="true" multiValued="false" default=" "/> 
<field name="execute_app" type="text_general" indexed="true" stored="true" multiValued="false" default=" "/> 
<field name="event_1010_rule_id" type="text_general" indexed="true" stored="true" multiValued="false" default=" "/> 
<field name="is_complete_generation_time" type="strings" indexed="false" stored="true" multiValued="false" default=" "/> 
<field name="is_complete" type="strings" indexed="false" stored="true" multiValued="false" default=" "/> 
<field name="landing_type" type="strings" indexed="false" stored="true" multiValued="false" default=" "/> 
<field name="nlg_output" type="text_general" indexed="false" stored="true" multiValued="false" default=" "/> 
<field name="thumbs_result" type="strings" indexed="false" stored="true" multiValued="false" default=" "/> 
<field name="close_type" type="strings" indexed="false" stored="true" multiValued="false" default=" "/> 
<field name="event_22" type="strings" indexed="false" stored="true" multiValued="false" default=" "/> 
<field name="chatbot_resp_id" type="strings" indexed="false" stored="true" multiValued="false" default=" "/> 
<field name="nlu_utterance" type="text_general" indexed="true" stored="true" multiValued="false" default=" "/> 
<field name="nlu_matched_domain" type="text_general" indexed="true" stored="true" multiValued="false" default=" "/> 
<field name="nlu_display_text" type="text_general" indexed="false" stored="true" multiValued="false" default=" "/> 
<field name="nlg_display_text" type="text_general" indexed="false" stored="true" multiValued="false" default=" "/> 
<field name="dc_agent" type="strings" indexed="false" stored="true" multiValued="false" default=" "/> 
<field name="nlu_bixby_state_ids" type="text_general" indexed="true" stored="true" multiValued="false" default=" "/> 
<field name="user_type" type="strings" indexed="false" stored="true" multiValued="false" default=" "/> 
<field name="rule_chooser_result" type="strings" indexed="false" stored="true" multiValued="false" default=" "/> 
<field name="fe_client_time" type="strings" indexed="false" stored="true" multiValued="false" default=" "/> 
<field name="command_type" type="strings" indexed="false" stored="true" multiValued="false" default=" "/> 
<field name="completeness" type="text_general" indexed="true" stored="true" multiValued="false" default=" "/> 
<field name="fr_om" type="strings" indexed="false" stored="true" multiValued="false" default=" "/> 
<field name="event_28" type="strings" indexed="false" stored="true" multiValued="false" default=" "/> 
<field name="event_29" type="strings" indexed="false" stored="true" multiValued="false" default=" "/> 
<field name="event_31" type="strings" indexed="false" stored="true" multiValued="false" default=" "/> 
<field name="event_32" type="strings" indexed="false" stored="true" multiValued="false" default=" "/> 
<field name="event_33" type="strings" indexed="false" stored="true" multiValued="false" default=" "/> 
<field name="nlu_open_qa_session_id" type="strings" indexed="false" stored="true" multiValued="false" default=" "/> 
<field name="nlu_is_open_qa_session" type="strings" indexed="false" stored="true" multiValued="false" default=" "/> 
<field name="nlu_viv_capsule" type="strings" indexed="false" stored="true" multiValued="false" default=" "/> 
<field name="nlu_viv_goal" type="strings" indexed="false" stored="true" multiValued="false" default=" "/> 
<field name="yyyymmdd" type="strings" indexed="true" stored="true" multiValued="false" default=" "/> 
+0

でそれを追加する必要があり、あなたのスキーマ – Mysterion

+0

を共有してくださいどのような状況下で、私は「緊急」または他の同様の追加も[お読みくださいより速い回答を得るために、私の質問にフレーズを書いていますか?](// meta.stackoverflow.com/q/326569) - これはボランティアに対処する理想的な方法ではなく、おそらく回答を得ることに逆効果があるということです。これをあなたの質問に追加しないでください。 – halfer

答えて

0

をspecif言語とインデックスを検出することができるはずそれは魔法のように作業を開始しますので、ちょうどあなたのフィールドタイプにcjkを追加するのに十分ではありませんスキーマ内のtext_general_cjk以下は、アカウントにあなたのニーズを取って展開する必要のある、非常に単純な例である:それはちょうど同様に日中韓の言語に適している特殊なICUTokenizerを、使用しています

<fieldType name="text_general_cjk" class="solr.TextField" positionIncrementGap="100"> 
     <analyzer type="index"> 
     <tokenizer class="solr.ICUTokenizerFactory"/> 
     <filter class="solr.LowerCaseFilterFactory"/> 
     </analyzer> 
     <analyzer type="query"> 
     <tokenizer class="solr.ICUTokenizerFactory"/> 
     <filter class="solr.LowerCaseFilterFactory"/> 
     </analyzer> 
    </fieldType> 

<field name="text_cjk" type="text_general_cjk" indexed="true" stored="false"/>

とだけこの後:あなたは、あなたのニーズに応じて、いくつかのより多く追加することができ、リストは、あなたがフィールドを追加することができthereはこの後

(日中韓だけでなく仕様を見てみましょう)でありますこのフィールドでドキュメントのインデックスを作成することができます。スキーマで以下の変更を行った後、Solrを再起動して再インデックスする必要があることを忘れないでください。

ICUフィルタはデフォルトのSolrのlibsの一部ではないので、あなたはsolrconfig.xmllucene-analyzers-icuと瓶

+0

情報をくれてありがとうが、solrconfig.xmlでも何か変更する必要がありますか? –

+0

test_shard1_replica_n2:org.apache.solr.common.SolrException:org.apache.solr.common.SolrException:コアのコンフィグレーションをロードできませんでしたtest_shard1_replica_n2:スキーマを読み込めませんmanaged-schema:[schema.xml] fieldTypeのプラグイン初期化エラー"text_general_cjk":[schema.xml]アナライザ/トークナイザのプラグイン初期化エラー:クラス 'solr.ICUTokenizerFactory'の読み込みエラー test_shard2_replica_n2: –

+0

エラーとして上に表示されています –

関連する問題