Webクローラで作業しているときに、私はこの奇妙な事態に遭遇しました。以下はhttp://nexgen.aeのために、ウェブサーバから返されたページの内容の抜粋です:Webサーバーから異常なhtmlファイルが返される
< ! D O C T Y P E H T M L P U B L I C " -// W 3 C// D T D H T M L 4 . 0 T r a n s i t i o n a l// E N " >
< H T M L > < H E A D > < T I T L E > N e x G e n T e c h n o l o g i e s L L C | F i n g e r p r i n t T i m e A t t e n d a n c e M a n a g e m e n t S y s t e m | A c c e s s C o n t r o l M a n a g e m e n t S y s t e m | F a c e R e c o g n i t i o n | D o o r A c c e s s C o n t r o l | E m p l o y e e s A t t e n d a n c e | S o l u t i o n P r o v i d e r | N e t w o r k S t r u c t u e d C a b l i n g | D u b a i | U A E) </T I T L E >
あなたが見ることができるように、Webサーバは、元のHTMLソース内の他のすべての文字の後に空白文字を挿入しているようです。私は、Firefoxで "ページソース"を使ってHTMLソースをチェックしましたが、余分なスペースはありませんでした。私は同じウェブサイトから他のウェブページをチェックして、それらのページの正しいHTMLファイルを取得しています。これまでのところ、Webクローラを介してアクセスすると、このWebサイトのデフォルトページでのみ問題が発生しているようです。
私は、htmlファイルに「google optimizer tracking script」が含まれていることに気付きました。問題がそれと何か関係があるのだろうか... ...
これは、Webクローラーを遠ざけるウェブ管理者の方法かもしれませんか?そうであれば、robots.txtファイルが実行されます。
ありがとう、房、感覚の全体を作る! –