2011-01-28 15 views
4

クライアントがサーバがSearch Engine Optimizing techniquesを使用しているかどうかを検出するには、mod_rewriteを使用して「seo friendly urls」を実装するなどの方法があります。例えば検索エンジン最適化(SEO)の検出

ノーマルURL: http://somedomain.com/index.php?type=pic&id=1

SEOフレンドリーURL: http://somedomain.com/pic/1

+4

他の重複のため<link rel="canonical" href="..." />タグを使用して、より良いですか? – SLaks

答えて

5

mod_rewriteはサーバー側で動作するため、クライアントが確実に検出できる方法はありません。あなたはクライアント側を行うことができます

唯一のことは、いくつかの手がかりを探すことです:

  • は、HTMLは、動的に生成され、その呼び出しの間の変化?その後、/ pic/1はスクリプトによって処理される必要があり、本当のURLではない可能性があります。
  • Like the before:<link rel="canonical">タグはありますか?次に、ウェブサイトは検索エンジンに、同じコンテンツを使用する複数のURLを使用するように指示します。
  • URLの一部を修正し、404が表示されたら参照してください。/pic/1には "1"を修正します。
    mod_rewriteがない場合は、404を返します。そうであれば、エラーはサーバーサイドスクリプト言語によって処理され、404を返すことができますが、ほとんどの場合、エラーを出力する200ページが返されます。
3
+0

または、むしろ、誰かがどのようにSEOのフレンドリーなURLを検出するためにスパイダーを書くことができますか? – rook

+0

@Rook:これらのタグを探します。 – SLaks

+0

ええ、3人の人がこの方法を使うのを除けば、Googleもその一人です。とにかく+1。 – rook

3

SEOのアスペクトは、通常URLの単語に表示されるため、数字の部分は無視される可能性があります。完全URL例があると、

ベースwww.domain.ext/article:通常SEOのようなコンテンツのグループの上に適用される、つまり、例えば、共通のベースURLを有する

  • www.domain.ext /物品/ 2011/6月15日/男性-刺され、犬
  • www.domain.ext /記事/ 2010/12月1日/美容-ない-ばかりの皮膚の深い

このようなことのSEOの様相URLは接尾辞です。

  1. HTTPレスポンスコードが200である:明らかにする必要がありますが、数値、文字、英数字、その後、次のように得点 - 適用するアルゴリズムは、それぞれがその「データ型」に割り当てる共通のベースの後に「フォルダ」類型化です他のチェックが合格する404 www.domain.ext/errors/file-not-foundを得ることができます。
  2. 非数値、セパレータ付き、スペルチェック:セパレータは通常、ダッシュ、アンダースコア、またはスペースです。それぞれの単語を取り、スペルチェックを行います。適切な名前を含む単語が有効な場合。
  3. ページのURLスペルチェック済みテキストテキストテキストがスペルチェックをパスした場合は、ページのコンテンツを分析して表示されているかどうかを確認します。
  4. タグ内のページのスペルチェック済みURLテキスト:priorがtrueの場合は、そのテキスト全体がHTMLタグ内にある場合に再度マークします。
  5. タグが重要です:先がtrueで、タグが<title>または<h#>タグの場合はtrueです。

通常、この方法では、URLの複数のフォルダが条件を満たす場合を除き、最大値が5点になります。ここでは、上記の方法を使用してURLをフィーチャリングする(つまり、何らかの現象の発生を検出する)方法や、他の賢明なフィーチャリングを利用する方法を使用してこれを改善することができます。しかし、あなたはアルゴリズムを訓練しなければなりません。そのアルゴリズムは価値がないかもしれません。

この例では、クエリパラメータがURLの一部になっているため、クローラがインデックスを作成するようにURLが設計されている状況をキャプチャしたいと考えています。その場合でも、接尾辞のフォルダをタイプ化して、データ型のパターンに到達することができます - 一般的な接頭辞は常に整数で追跡されます。この例では、これらのURLはSEOにも適しています。

1

私はあなたがカール変種を使用していると思います。

異なる「ユーザーエージェント」値を使用して同じリクエストを送信してみることもできます。

つまり、サーバがウェブクローラのための特別な何かをやっている場合は、その後で異なる応答

0

があるはず「Googlebotが」ユーザーエージェントを使用して、ユーザー・エージェント「Mozzilla/5.0」と第二の時間を使用して要求1を送信します今日のフレームワークとURLのルーティング私はmod_rewriteを使用してフレンドリーなURLを作成する必要はありませんので、http://somedomain.com/pic/1なので、何かを検出することはできません。私はすべての訪問者、クローラーのためにそのようなURLを作成します。おそらく、あなたが知られているクローラーであり、変更があるかどうかを確かめるために、いくつかのボットヘッダーを偽装できます。ダンノーどのように合法的なtbhです。

動的URLのパターンについては
0

、あなたはクモやサイトを作成している