2016-11-23 12 views
0

そこにホストされているURLにアクセスすると、このようなことをするホスティングプロバイダはほとんどありません。例えば同様 は、ホスティングプロバイダを検討し、ウェブサイトには「vritrasur.comを」、言う、そこにホストさcronジョブを使用して私のウェブサイトからデータを解析する

サイトがあるん何、我々はサイトを訪問した場合、「さ

「xtreemhost.com」と言いますhttp://vritrasur.com」、それはへのURLを更新します "http://vritrasur.com/?i=1" あなたは再びそれをリロードする

、それは、となり "http://vritrasur.com/?i=2"

問題:

私はPHPスクリプトを持って、アップロードそのようなウェブサイトの1つ(私のウェブサイトのみ、ちょうどそのようなサーバーの1つでホストされている)で編集し、私はそのスクリプトを1時間ごとに実行する必要があります。 手作業で行うその愚かさのため、私はそれをcronの仕事をすると思った。 cronジョブが要求を行うたび

、URLはこの

<html> 
    <body> 
     <script type="text/javascript" src="/aes.js" ></script> 
     <script> 
      function toNumbers(d){ 
       var e=[]; 
       d.replace(/(..)/g,function(d) { e.push(parseInt(d,16)) }); 
       return e 
      } 
      function toHex(){ 
       for(var d=[],d=1==arguments.length&&arguments[0].constructor==Array?arguments[0]:arguments,e="",f=0; 
       f<d.length;f++)e+=(16>d[f]?"0":"")+d[f].toString(16); 
       return e.toLowerCase() 
      } 
      var a=toNumbers("f655ba9d09a112d4968c63579db590b4"),b=toNumbers("98344c2eee86c3994890592585b49f80"),c=toNumbers("9f38f758d71e0c6e0e935c8c90e0cce1"); 
      document.cookie="__test="+toHex(slowAES.decrypt(c,2,a,b))+"; 
      expires=Thu, 31-Dec-37 23:55:55 GMT; path=/"; 
      location.href="http://raghavrao.com/homeimage/reasontorely/infra1.png?i=1"; 
     </script> 
     <noscript>This site requires Javascript to work, please enable Javascript in your browser or use a browser with Javascript support</noscript> 
    </body> 
</html> 

技術のようなエラーがスローされ、サーバーは私のブラウザでいくつかのCookieを設定し、その後ので、任意の自動化されたボットを防止し、URLを更新していますさサーバーを介してデータをスクラップします。

私の質問は、このようなハードルの後でさえもスクラップすることです。

「はい」の場合は、どうか表示してください。

答えて

0

の研究の後、私はユーザーエージェント「Googlebotが/ 2.1(+ http://www.googlebot.com/bot.html)」を試してみたと私はjavascriptをせずにいたと__testので、Googleがhttps://www.google.nl/#q=site:vritrasur.comでウェブサイトvritrasur.comをインデックス化しており、Googleが自動化されたボットであることがわかりますクッキー。あなた

<?php 

$ch = curl_init(); 

curl_setopt($ch, CURLOPT_URL, "http://vritrasur.com"); 
curl_setopt($ch, CURLOPT_USERAGENT, "Googlebot/2.1 (+http://www.googlebot.com/bot.html)"); 

curl_exec($ch); 
curl_close($ch); 

?> 
+0

先生に、イムは、私だけがURLを設定することを可能にする、cronジョブを使用してまで、私はコードオフ残りの部分で取得するために使用さ

PHPコードです。 –

+0

私はカールを使うことができないので、どうすればユーザエージェントを設定できますか? –

+0

@yogesh prajapati cronjobをもっと精巧にしてください。何らかのプログラムなしでウェブサイトをスクラップすることはできません。 –

関連する問題