Apache Solr、SolrJとXMLを解析するためのデータインポートハンドラ

私は、XMLファイルから解析された情報からの検索を実行するためにSolrを使用したいと考えています。これらのXMLファイルはSolrのドキュメント形式ではありません。私はそれらを解析し、必要なフィールドを取得する必要があります。Apache Solr、SolrJとXMLを解析するためのデータインポートハンドラ

私はJavaプログラミングに精通しており、SolrJがデータインポートハンドラを使用するより簡単な方法であるかどうか疑問に思っていました。私は持っている各XMLファイルを実行し、それぞれから必要なフィールドを解析することを検討しています。ある方法の欠点は他のものよりもありますか？私はJavaに精通しているので、XMLをそのように解析する方が簡単かもしれないので想像していますか？

おそらく複数の条件と正規表現が必要になります。何かがあれば、比較的構造化されていないXMLから私のフィールドを得る信頼できる方法です。

SolrJはどのようにインターフェイスで動作しますか？つまり、SolrJを使用してインデックスを作成しても、インターフェイスからクエリを実行できますか？

出典

2017-10-16 dj1121

あなたのコンテンツをSolrにインデックスする方法は、あなたがそれをどのようにクエリするかとは正反対です。索引に正しい文書を作成する限り、任意の方法で索引付けすることができます。

インデックス作成に関して、DIHが多くの調整をすることなく必要なものを手に入れることができたら、それを行ってください。しかし、データの微調整が必要な場合は、Solrを使ってJavaを書くだけで、より速く終了することができます。 Solrではすべての柔軟性がありますが、DIHではより制約があります（80/20ルールを考えてください）。

出典

2017-10-17 06:31:52 Persimmonium

DIHはおそらく、SorlJですべての文書を追加するよりも高速です –

DIHはプロトタイプ用に設計されていますが、一部の人はそれを製造に使用します。あなたはそれから始めることができますが、SolrJや他の方法に飛びつく準備ができていれば、その限界に突き当たります。非常に複雑なマッピングがある場合は、SolrJを使い始めるほうが良いでしょう。

apply XSLT transform on an incoming XML documentまた、Solr形式にマップすることもできます。

他のところで述べたように、検索はインデックス作成とは別の問題です。

出典

2017-10-17 14:13:51

Apache Solr、SolrJとXMLを解析するためのデータインポートハンドラ

答えて

関連する問題