これは長い話ですが、私はもうそれ以上の価値観がなく、将来的にはスイッチを軽く叩いていくような髪の上司から内部のウェブサイトを救おうとしています。私は、含まれている情報が重要であり、将来の世代はそれを使いたいと考えています。いいえ、大人のサイトではありませんが、それはいくつかの大きな企業だから、これ以上言い表すことはできません。tcpdumpからサイトを再作成しますか?
問題は、サイトがIE7でのみ動作するASPとFlashの混乱で、IE8と32ビットのみでもバグだということです。すべてのURLはセッションスタイルであり、不気味です。フラッシュオブジェクト自体は、GET要求付きの追加情報をASPオブジェクトにプルします。それは本当にスクレイピングのために設計されていません。 :)
私はサイト全体をナビゲートするので、私の考えはtcpdumpを行うことです。次に、何とかすべてのGETの結果をSQLデータベースにダンプします。次に、ホストファイルを少し混乱させて、すべての要求をデータベースで一致するget要求を探してデータを返すcgiスクリプトにリダイレクトします。したがって、サイト全体がURLデータベースのSQLデータベースに配置されます。フラットファイルも機能します。
理論的には、これがこの問題を解決する唯一の方法だと私は考えています。私が見る唯一の問題は、毎回異なるセッションURLを生成するクライアント側のActiveX/Flashの処理を行う場合です。
とにかく、私はPerlを知っていて、適切なモジュールを使って簡単に思えるので、私はその中でほとんどの作業を行うことができると思います。多分これは既に存在するのでしょうか?
ありがとうございます。
ngrepがtcpdumpより優れている可能性があります。あなたはソースに恥ずかしいだけではいけませんか? –
サイトのコードとコンテンツを取得できませんか?その後、直接インターネットに接続しなくても実行できる仮想マシンにインストールすることで、OSをフリーズすることができます(OSもフリーズする必要があります)。 – reinierpost
サイトを管理してビールを買う人を探しましょう。彼らの親友になれます。次に、データベースのダンプを求めます。 –