2012-02-15 10 views
1

これは長い話ですが、私はもうそれ以上の価値観がなく、将来的にはスイッチを軽く叩いていくような髪の上司から内部のウェブサイトを救おうとしています。私は、含まれている情報が重要であり、将来の世代はそれを使いたいと考えています。いいえ、大人のサイトではありませんが、それはいくつかの大きな企業だから、これ以上言い表すことはできません。tcpdumpからサイトを再作成しますか?

問題は、サイトがIE7でのみ動作するASPとFlashの混乱で、IE8と32ビットのみでもバグだということです。すべてのURLはセッションスタイルであり、不気味です。フラッシュオブジェクト自体は、GET要求付きの追加情報をASPオブジェクトにプルします。それは本当にスクレイピングのために設計されていません。 :)

私はサイト全体をナビゲートするので、私の考えはtcpdumpを行うことです。次に、何とかすべてのGETの結果をSQLデータベースにダンプします。次に、ホストファイルを少し混乱させて、すべての要求をデータベースで一致するget要求を探してデータを返すcgiスクリプトにリダイレクトします。したがって、サイト全体がURLデータベースのSQLデータベースに配置されます。フラットファイルも機能します。

理論的には、これがこの問題を解決する唯一の方法だと私は考えています。私が見る唯一の問題は、毎回異なるセッションURLを生成するクライアント側のActiveX/Flashの処理を行う場合です。

とにかく、私はPerlを知っていて、適切なモジュールを使って簡単に思えるので、私はその中でほとんどの作業を行うことができると思います。多分これは既に存在するのでしょうか?

ありがとうございます。

+0

ngrepがtcpdumpより優れている可能性があります。あなたはソースに恥ずかしいだけではいけませんか? –

+1

サイトのコードとコンテンツを取得できませんか?その後、直接インターネットに接続しなくても実行できる仮想マシンにインストールすることで、OSをフリーズすることができます(OSもフリーズする必要があります)。 – reinierpost

+5

サイトを管理してビールを買う人を探しましょう。彼らの親友になれます。次に、データベースのダンプを求めます。 –

答えて

2

キャプチャするにはtcpdumpを使用せず、クローラ自体またはすべてを保存するように調整できるwebproxyを使用します。 Fiddler,Squidまたはmod_proxyである。

+0

面白い考え。私はすべてを保存するためにプロキシを設定できると仮定します。しかし、私はプロキシーの自然な本能と戦って、プロキシーを再生に使うと最新のバージョンを持っているかどうかをチェックし続けるつもりです。 – Porch

+0

再生がうまくいくかどうかは、サイトの構成方法(RESTyの状態)によって異なります。 – reinierpost

関連する問題