クライアントがサーバがSearch Engine Optimizing techniquesを使用しているかどうかを検出するには、mod_rewriteを使用して「seo friendly urls」を実装するなどの方法があります。例えば検索エンジン最適化(SEO)の検出
:
ノーマルURL: http://somedomain.com/index.php?type=pic&id=1
SEOフレンドリーURL: http://somedomain.com/pic/1
クライアントがサーバがSearch Engine Optimizing techniquesを使用しているかどうかを検出するには、mod_rewriteを使用して「seo friendly urls」を実装するなどの方法があります。例えば検索エンジン最適化(SEO)の検出
:
ノーマルURL: http://somedomain.com/index.php?type=pic&id=1
SEOフレンドリーURL: http://somedomain.com/pic/1
mod_rewriteはサーバー側で動作するため、クライアントが確実に検出できる方法はありません。あなたはクライアント側を行うことができます
唯一のことは、いくつかの手がかりを探すことです:
<link rel="canonical">
タグはありますか?次に、ウェブサイトは検索エンジンに、同じコンテンツを使用する複数のURLを使用するように指示します。/pic/1
には "1"を修正します。 mod_rewrite
がない場合は、404を返します。そうであれば、エラーはサーバーサイドスクリプト言語によって処理され、404を返すことができますが、ほとんどの場合、エラーを出力する200ページが返されます。SEOのアスペクトは、通常URLの単語に表示されるため、数字の部分は無視される可能性があります。完全URL例があると、
ベースwww.domain.ext/article
:通常SEOのようなコンテンツのグループの上に適用される、つまり、例えば、共通のベースURLを有する
このようなことのSEOの様相URLは接尾辞です。
www.domain.ext/errors/file-not-found
を得ることができます。<title>
または<h#>
タグの場合はtrueです。通常、この方法では、URLの複数のフォルダが条件を満たす場合を除き、最大値が5点になります。ここでは、上記の方法を使用してURLをフィーチャリングする(つまり、何らかの現象の発生を検出する)方法や、他の賢明なフィーチャリングを利用する方法を使用してこれを改善することができます。しかし、あなたはアルゴリズムを訓練しなければなりません。そのアルゴリズムは価値がないかもしれません。
この例では、クエリパラメータがURLの一部になっているため、クローラがインデックスを作成するようにURLが設計されている状況をキャプチャしたいと考えています。その場合でも、接尾辞のフォルダをタイプ化して、データ型のパターンに到達することができます - 一般的な接頭辞は常に整数で追跡されます。この例では、これらのURLはSEOにも適しています。
私はあなたがカール変種を使用していると思います。
異なる「ユーザーエージェント」値を使用して同じリクエストを送信してみることもできます。
つまり、サーバがウェブクローラのための特別な何かをやっている場合は、その後で異なる応答
があるはず「Googlebotが」ユーザーエージェントを使用して、ユーザー・エージェント「Mozzilla/5.0」と第二の時間を使用して要求1を送信します今日のフレームワークとURLのルーティング私はmod_rewriteを使用してフレンドリーなURLを作成する必要はありませんので、http://somedomain.com/pic/1なので、何かを検出することはできません。私はすべての訪問者、クローラーのためにそのようなURLを作成します。おそらく、あなたが知られているクローラーであり、変更があるかどうかを確かめるために、いくつかのボットヘッダーを偽装できます。ダンノーどのように合法的なtbhです。
動的URLのパターンについては、あなたはクモやサイトを作成している
他の重複のため
<link rel="canonical" href="..." />
タグを使用して、より良いですか? – SLaks