私はウェブサイトをクロールしました。ドロップダウンメニュー、ナビゲーションなど、ページには多くの共通のコンテンツがあります。これらのコンテンツがインデックスに登録されないようにするにはどうすればよいですか?インデックスを作成するウェブページの一部をブロックします
1
A
答えて
0
私は過去2年間、ナッチコードベースで作業していますが、これまで見てきたことはありません。コンテンツがナチュラルセグメントに入ると、ドロップダウンメニューやナビゲーションなどの部分を取り除き、必要なものだけを残しておくことができます。
あなたや他の誰かが(コードを変更せずに)それを行う方法を知っている場合は、同じものを共有してください。
1
これを行う必要がある場合に備えて、その場合に備えて、https://issues.apache.org/jira/browse/NUTCH-585にあるblacklist_whitelistプラグインを試すこともできます。
プラグインを使用すると、ブロックまたは許可する要素のリストを持つことができますが、両方ではできません。 例:
<property>
<name>parser.html.blacklist</name>
<value>noscript,div,#footer</value>
<description>
A comma-delimited list of css like tags to identify the elements which should
NOT be parsed. Use this to tell the HTML parser to ignore the given elements, e.g. site navigation.
It is allowed to only specify the element type (required), and optional its class name ('.')
or ID ('#'). More complex expressions will not be parsed.
Valid examples: div.header,span,p#test,div#main,ul,div.footercol
Invalid expressions: div#head#part1,#footer,.inner#post
Note that the elements and their children will be silently ignored by the parser,
so verify the indexed content with Luke to confirm results.
Use either 'parser.html.blacklist' or 'parser.html.whitelist', but not both of them at once. If so,
only the whitelist is used.
</description>
</property>
関連する問題
- 1. PhpStorm。一部のフォルダのインデックスを強制的に作成する
- 2. C#でウェブページをブロックするアプリケーションを作成する
- 3. モデルの一覧を読み、新しい作成をブロックする
- 4. 部分文字列検索のインデックスを作成しますか?
- 5. postgresql jsonbフィールドの部分インデックスを作成します。
- 6. TreeViewItemラップの一部を作成する
- 7. urllibでウェブページの一部を取得しています
- 8. ウェブページからウェブサイトの一部を削除します。
- 9. ウェブページがiframeを削除するのをブロックします
- 10. mysqlの部分インデックス作成、逆インデックス作成
- 11. アンドロイドウェブビューでウェブページの一部を削除して表示する
- 12. イメージファイルの一部を含むUIImageViewを作成します。
- 13. Hiveで外部テーブルのインデックスを作成できますか?
- 14. ウェブページ内のJavaScriptコードの一部をクロール
- 15. ユニティのメッシュの一部にトランスフォームを作成しますか?
- 16. PHPはページの一部のjpgイメージを作成します
- 17. 誰がhadoopでブロックのブロックIDを作成しますか?
- 18. liquibase - postgresqlの外部キーのインデックスを作成する
- 19. ウェブページを作成し、外部リンクをhtmlとcssにコールしたいですか?
- 20. ウェブページの一部に異なるレイアウトを実装する
- 21. ジャンゴ:インデックスを作成します。
- 22. ウェブページの一部のみでangular2を使用する方法
- 23. 外部テーブルへのインデックスの作成PostgreSQL
- 24. リストの一部を累積するプログラムを作成する - Haskell
- 25. ウェブページでインタラクティブマップを作成する
- 26. 3Dウェブページを作成するには?
- 27. ウェブページからAndroidアプリケーションを作成する
- 28. ウェブページでタブを作成するには?
- 29. ウェブページのリフレッシュカウンタを作成しようとしています
- 30. ウェブビューでウェブページの一部を表示する
誰でも知っていますか? – thunder