2009-03-01 11 views
4

URLを指定すると、テキストを取得してユーザーにコンテンツに関する統計情報を提供するWebツールを試しています。URL取得サービスのベストプラクティス?どのように攻撃ベクトルを避けるために?

私は、自分のボックスからネット上の任意のURLへのGETリクエストを開始する方法を攻撃のベクタ(例えば、http://undefended.box/broken-sw/admin?do_something_bad)にすることができると心配しています。

このリスクを最小限にする方法はありますか?パブリックURL取得機能を提供する際のベストプラクティス

私がについて考えてきたいくつかのアイデア:

  • は(そのようなものが存在する場合)、適切なサイトのブラックリスト/ホワイトリストをチェックするだけで、特定のURLパターン
  • を受け入れるか拒否robots.txt
  • を称えるは、よく知られているサードパーティの公開Webプロキシを介して、これらの安全対策をすでに構築しているという前提で、

ご協力いただきありがとうございます。

編集:リンクされたスクリプト、画像などをダウンロードしたり評価したりすることなく、HTMLまたはテキストコンテンツのみを評価します。HTMLの場合は、HTMLパーサーを使用します。

+0

1分あたりのリクエスト数の制限はありますか? – Nifle

答えて

2

統計情報は文書内のテキストについてになりますか?あなたはHTMLパーサーを使ってそれを評価しようとしていますか?

これは、解析するテキストだけです。つまり、リンクをさらにダウンロードしたり、スクリプトを評価したりすることなく、リスクはそれほど厳しくありません。

アンチウィルスプログラムを介してダウンロードした各ファイルを渡すのに害はありません。また、GETを特定のコンテンツタイプに制限する必要があります(バイナリをダウンロードしないでください)。何らかのテキストエンコーディングであることを確認してください。

関連する問題