phpフォームのコンテンツを含むWebサイトからコンテンツをクロールできないという問題が発生しました。私は、これが他のすべてのページが問題なしでクロールされているので、これが問題であると仮定しています。私は、Nutch 1.11とApache Solr 5.4.1を使用して、クロールされたドキュメントのインデックスを作成しています。インデックスを取得する唯一のテキストは、メニューリンクなどからのボイラープレートのテキストです。本文全体が解析されることはありません。
私は現在、URLでPHPクエリを実行できるようにするものを除いて、デフォルトの設定でこれを試していますので、 '?='などの文字はすべてデフォルト設定以外で受け付けられます。 誰かがこれが本当にありがとうと思うのであれば、私はそれをオンラインのどこでも問題として見つけられないようです。
以下は、本文を抽出して解析することができないサイトの例です。 https://www101.dcu.ie/prospective/deginfo.php?classname=BMED&originating_school=21
私はログを通過し、URLが解析されたと言います。それはメニューテキストを抽出するために管理しますが、主な内容はまったくありません。そして、ドメイン上の他のすべてのページが問題なく抽出できると私は言った。Nutchがページコンテンツをクロールしない
0
A
答えて
0
一般に、クエリURLはデフォルトでは無視されますが、これはクロールされたウェブサイトで重大なヒットとなる可能性があるためです(クエリURLは通常データストア/ dbから動的に生成されるため)。あなたのホワイトリストの正規表現を置いた場所にファイルがあります。そこには、受け入れられるURLパターンを明示的に記述するコメントがあります - これは、クエリURL(URLに?を含むURL)を許可するように変更する必要があります。
と呼ばれていることに興味ファイル:
REGEX-URLFILTER.TXT
となります:問題に関する興味深いブログで
# regex-urlfilter.txt +^http://www.example.com/browse -[?]
内容:https://datafireball.com/2014/07/20/nutch-how-regex-urlfilter-txt-really-works/ - 私が所属していないです
関連する問題
- 1. Apache Nutch再起動クロール
- 2. Apache Nutchでクロール中のエラー
- 3. Nutchクローラーが「ように」クロールしています
- 4. Nutch 2.3.1ドメイン名を持たない内部リンクをクロールしない
- 5. Nutchがseed.txtで指定されたURL以外のURLをクロールしない
- 6. nutch 1.3のURLを再クロールする
- 7. NutchがクロールしたWebページの数を調べる方法は?
- 8. Nutchで深くクロールする方法
- 9. Nutchは特定のサイトをクロールできませんでした
- 10. Nutch 2はコンテンツタイプの画像をクロールから除外します
- 11. Nutchを使用してクロールされたページの後処理
- 12. bin/nutchはクロール/クローリングURLを挿入しません。
- 13. どのように実行するか$ ./nutchはクロール/クロールURLを挿入する
- 14. Nutchのクロールが成功した後に、弾性サーチインデックスが失敗する
- 15. 外部リンクがNutchでクロールされたベースURLへのパスをトレースします
- 16. Nutchを記事のクロールに拡張する方法
- 17. Nutchのクロールを開始できません
- 18. Nutch 2.3.1でウェブサイトをクロールすると、製品リンクはスキップされますが、他のリンクはクロールされます
- 19. Apache Nutchはrabbitmqにクロールされたドキュメントを書いています
- 20. Nutchクロールスクリプトのカスタムオプションが機能しない
- 21. Nutch Crawlが機能しない
- 22. Nutch Crawl - 各クロールの意味でのセグメントの削除
- 23. フォームの上にnutchクロールはありませんか?
- 24. 深いクロールが動作しない
- 25. Nutchを使用して指定されたURLリストをクロールする
- 26. Nutch 1.10 - 同じTLDで100を超えるサブドメインをクロールしません
- 27. AngularJS:ページコンテンツをホームページに表示しない
- 28. Nutchがクロールしたsolrデータのインデックス作成中にエラーが発生しました
- 29. ページビルダーが更新されないページコンテンツ
- 30. Wordpressのページコンテンツが表示されない