2016-05-15 11 views
0

phpフォームのコンテンツを含むWebサイトからコンテンツをクロールできないという問題が発生しました。私は、これが他のすべてのページが問題なしでクロールされているので、これが問題であると仮定しています。私は、Nutch 1.11とApache Solr 5.4.1を使用して、クロールされたドキュメントのインデックスを作成しています。インデックスを取得する唯一のテキストは、メニューリンクなどからのボイラープレートのテキストです。本文全体が解析されることはありません。
私は現在、URLでPHPクエリを実行できるようにするものを除いて、デフォルトの設定でこれを試していますので、 '?='などの文字はすべてデフォルト設定以外で受け付けられます。 誰かがこれが本当にありがとうと思うのであれば、私はそれをオンラインのどこでも問題として見つけられないようです。
以下は、本文を抽出して解析することができないサイトの例です。 https://www101.dcu.ie/prospective/deginfo.php?classname=BMED&originating_school=21

私はログを通過し、URLが解析されたと言います。それはメニューテキストを抽出するために管理しますが、主な内容はまったくありません。そして、ドメイン上の他のすべてのページが問題なく抽出できると私は言った。Nutchがページコンテンツをクロールしない

答えて

0

一般に、クエリURLはデフォルトでは無視されますが、これはクロールされたウェブサイトで重大なヒットとなる可能性があるためです(クエリURLは通常データストア/ dbから動的に生成されるため)。あなたのホワイトリストの正規表現を置いた場所にファイルがあります。そこには、受け入れられるURLパターンを明示的に記述するコメントがあります - これは、クエリURL(URLに?を含むURL)を許可するように変更する必要があります。

と呼ばれていることに興味ファイル:

REGEX-URLFILTER.TXT

となります:問題に関する

興味深いブログで

# regex-urlfilter.txt +^http://www.example.com/browse -[?]

内容:https://datafireball.com/2014/07/20/nutch-how-regex-urlfilter-txt-really-works/ - 私が所属していないです

関連する問題