DOM
のような標準的な方法があり、HTMLページを選択的に解析することができますが、解析対象のメインテキストがどこにあるのかを検出することができますか?クローラはどのようにウェブページからテキストを解析しますか?
キーワードをキャプチャするために分析されるメインテキストは、メニュー、サイドバー、フッターなどと混在しています。クローラがメニューやサイド部分からキーワードをスキップする方法を教えてください。
私は、さまざまなHTMLページからキーワードを取得するための小さなPHPプロジェクトに取り組んでおり、サイドコンテンツからキャプチャされたキーワードを避ける方法はわかりません。誰かがHTMLページ内の他の人とメインのコンテンツを区別する方法を説明したり、少なくとも私にヒントを与えることができますか?
私は検索結果について話していません。たとえば、現在のページを解析するとき、メインテキストが私の質問とその答えであることを認識する方法。サイドバー、関連する質問、メニュー、StackOverflowのメモなどのリストではありません。私は、クローラの作成方法を制御する方法ではなく、クローラを作成する方法について話しています。 – Googlebot
[Readability project](http://arc90.com/work/readability/)を見て、それはPHPとPython –