Nutch/Solr Indexing Sentences - パーサープラグインまたはインデクシングプラグイン？

完全な文章を独自のフィールドとして索引付けしようとしています。 OpenNLPやLingPipeのようなものを使って、Nutchで文を分割すると、文章検出コードはどこにプラグインされますか？構文解析段階または索引付け段階では？Nutch/Solr Indexing Sentences - パーサープラグインまたはインデクシングプラグイン？

出典

2012-04-21 Ramsel

両方の場所でいくつかの変更が必要です。

Nutchパーサーは、クロールされたコンテンツからフォーマットを切り捨てます。したがって、コンテンツがNutchセグメントに格納されると改行はなくなります。その部分を修正する必要があります。

デフォルトでは、nutch（これを実行するsolr）は索引付けのための単語ではなく文章を考慮します。だからあなたはそこでも覗く必要があります。

出典

2012-04-21 19:09:33

OpenNLPを使用するためにBasicIndexingFilter.javaを変更できましたが、後でSpanQueryを使用できるように、文の間にトークンを追加しました。これはうまくいくかもしれませんが、私はフィールドとして実際の文章を索引にしようとします - あるいは文書自体...これは私が現在混乱していることです。「文章」、「id」、「url」、「タイトル」などのフィールドを使用して各文章をドキュメント自体に索引付けしますか？ - または - ドキュメントとして各Webページを索引付けし続け、デフォルトのNutchフィールド'sentences'という名前のフィールドに複数のエントリを追加しますか？それも可能ですか？私は概念的に混乱している。 – Ramsel

は漠然としていますが、後者の提案がより適していると思います。あなたのsolr confディレクトリにあるSchema.xmlを見てください。そこにはフィールド定義があり、新しいフィールドを追加し、それをmultiValuedとしてマークします...これは、クロールされた複数のセンテンスを（配列として）ページ。 –

Nutch/Solr Indexing Sentences - パーサープラグインまたはインデクシングプラグイン？

答えて

関連する問題