1
完全な文章を独自のフィールドとして索引付けしようとしています。 OpenNLPやLingPipeのようなものを使って、Nutchで文を分割すると、文章検出コードはどこにプラグインされますか?構文解析段階または索引付け段階では?Nutch/Solr Indexing Sentences - パーサープラグインまたはインデクシングプラグイン?
完全な文章を独自のフィールドとして索引付けしようとしています。 OpenNLPやLingPipeのようなものを使って、Nutchで文を分割すると、文章検出コードはどこにプラグインされますか?構文解析段階または索引付け段階では?Nutch/Solr Indexing Sentences - パーサープラグインまたはインデクシングプラグイン?
両方の場所でいくつかの変更が必要です。
Nutchパーサーは、クロールされたコンテンツからフォーマットを切り捨てます。したがって、コンテンツがNutchセグメントに格納されると改行はなくなります。その部分を修正する必要があります。
デフォルトでは、nutch(これを実行するsolr)は索引付けのための単語ではなく文章を考慮します。だからあなたはそこでも覗く必要があります。
OpenNLPを使用するためにBasicIndexingFilter.javaを変更できましたが、後でSpanQueryを使用できるように、文の間にトークンを追加しました。これはうまくいくかもしれませんが、私はフィールドとして実際の文章を索引にしようとします - あるいは文書自体...これは私が現在混乱していることです。 「文章」、「id」、「url」、「タイトル」などのフィールドを使用して各文章をドキュメント自体に索引付けしますか? - または - ドキュメントとして各Webページを索引付けし続け、デフォルトのNutchフィールド'sentences'という名前のフィールドに複数のエントリを追加しますか?それも可能ですか?私は概念的に混乱している。 – Ramsel
は漠然としていますが、後者の提案がより適していると思います。あなたのsolr confディレクトリにあるSchema.xmlを見てください。そこにはフィールド定義があり、新しいフィールドを追加し、それをmultiValuedとしてマークします...これは、クロールされた複数のセンテンスを(配列として)ページ。 –