ナンバリングで指定しないでください

私は抽出プラグインを使用しています。 https://github.com/BayanGroup/nutch-custom-search 私はgithubの手順に従います。ここは私の設定です： 1）extractors.xml タイトル」/> ナンバリングで指定しないでください

2) nutch-site.xml 
<property> 
    <name>plugin.includes</name> 
    <value>protocol-http|urlfilter-regex|parse-(text|html|metatags|msexcel|msword|mspowerpoint|pdf)|extractor|scoring-opic|index-(basic|anchor|more|metadata)|query-(basic|site|url|lang)|urlnormalizer-(pass|regex|basic)</value> 
</property> 
3) added field in schema.xml of solr and nutch <field name="aakashtitle" type="string" stored="true" indexed="true" multiValued="true"/> 
4)I added plugin in parse-plugins.xml 
I am not getting any error but my data is not indexing in solr?? 
please help . and thanks!

出典

2016-05-02 Aakash Kag

1）extractors.xml <フィールド名= "aakashtitle" マルチ= "TRUE" /> <文書URL = "+" エンジン= "CSS"> <抽出物の分野= "aakashtitle"> のタイトル" /> –

コードが実際に動作するので、私は、GHリポジトリへの迅速な見ていました通常のParseFilterのように、parsecheckerコマンドを使用してデータが正しく引き抜かれているかどうかを確認する必要があります。

$ bin/nutch parsechecker <URL>

この出力すべきNutchの（contentTypeの、署名、URL）によって抽出された通常のデータとParseData（ステータス、タイトル、アウトリンク、等）、また、プラグインから抽出された任意の追加情報。

またindexcheckerのコマンドを使用できます。

$ bin/nutch indexchecker <URL>

この意志出力のアクティブインデックスプラグイン（Solrの/ ES）でインデックス化されようとしている実際のフィールドを。

出典

2016-05-04 14:38:31

ありがとう！それは今働いている。私は特定のタグを抽出するためのnucth用の独自のプラグインを構築したいと考えています。何か案が？ –

独自のプラグインを 'HTMLParseFilter'として実装することもできます。https://github.com/apache/nutch/blob/master/src/plugin/headings/src/java/org/apache/をご覧ください。 nutch/parse/headings/HeadingsParseFilter.javaは、簡単に理解できる基本的な抽出プラグインです。またhttps://issues.apache.org/jira/browse/NUTCH-1870を使用することもできます。これはWIPであり、おそらくトランク/ 1.11で動作するようにパッチを調整する必要がありますが、それは良い出発点であり、XPathを使用できるようになります抽出するデータを指定します。 –

すっごくありがとう！特定のタグを抽出するためのプラグインを自分で作成しようとします。 –

ナンバリングで指定しないでください

答えて

関連する問題