2016-12-20 2 views
0

_redirToタグはElasticSearchのステータスインデックスにあります。リダイレクトに関するいくつかの質問は次のとおりです。StormCrawlerのリダイレクトに制限はありますか?

  1. リダイレクトの制限はありますか?ループの終わりには、 のリダイレクトはありませんか?
  2. 特定のフェッチされたURLのリダイレクト回数はいくつですか?私は を見ることができます。_redirToタグにはただ1つのリダイレクトしかありません。 URLのリダイレクトが2〜3回あるとリダイレクト回数を取得できませんか?

答えて

1

シードからの深さに制限を設定できます。MaxDepth URL filterを参照してください。ただし、連続するリダイレクトの数に直接は影響しません。

あなたが気づいたとおり、私たちは特定のドキュメントがリダイレクトされたURLだけを追跡します。

シードからの距離に関係なくredirsの数を制御したい場合は、MetadataTransferを拡張または変更するか、プロトコル実装内のredirsを処理する方法があります。これは、ターゲットがURLは既に取得されています。

UPDATE「redirections.allowed」という名前のconfig要素があり、デフォルト値はtrueです。私はちょうどそれが正しく処理されなかったとしてSimpleFetcherBoltの修正をプッシュしました。

+0

StormCrawlerがリダイレクトされたURLに従わないということは、リダイレクトされたURLをさらにクロールしないことを私が気づいたことです。私は正しいですか?私が真実にする必要がある旗?リダイレクトされたURLでクロールするようにしますか? – superB

+0

これは正しくありません。 URLフィルタの1つがこれを防止しない限り、SCはリダイレクトに従うべきです。深さまたはその他。 GHの問題を再現可能な例で開いてください。そうでないと思われる場合は、早急に検討してください。ありがとう! –

+0

おそらくすべてのURLフィルタを削除してredir問題を解決するかどうかを確認してください。 –

関連する問題