私は可能な限りすべてのメタ情報を使用して、映画のようなテーマのページの関連性を分類するアルゴリズムを行っていますが、本文のテキストコンテンツは除きます。私はいくつかのテーマのためのページの関連性を分類するために使用することができますより多くのWebページのメタ情報の任意のアイデア?
私は、ページにテーマに関する情報があるかどうかを判断するために何が使えるのかを知りたいと思います。
現時点では、タイトルの40%、ドメインの後ろのリンクの30%、ドメインの20%、メタキーワードの10%の重要性を与えていますが、もっと正確なこと。私は、ページの関連性を計算するためにいくつかの単語にある重み付けを一致させています。
さらに関連性を計算するために何を使用できますか?私は、HTML自体の中のテキストコンテンツを除外したいだけですが、HTML構造を使うことができます。
今日では、いくつかのサイトが[dublin core](http://dublincore.org/)ベースのヘッダー(メタタグ)を使用しています。これはおそらく助けになるだろうか? – home
質問のタイトルは何かを尋ねます(ページの関連性について)、質問の内容は別の質問をします(ページのテーマ/カテゴリ)。ウェブページがカテゴリに含まれているかどうかを分類しますか?リンクアンカーテキストを見ることができますか? –
@Felipe私はタイトルを編集しました、私はいくつかのテーマの関連性が欲しいです。ムービー、音楽、ゲーム、ITなどのページの関連性メタ情報では、このメッセージのようにページのコンテンツ自体ではないものすべてを意味します。これは、私の質問、答え、関連する質問、敵対者などのように、ページがさまざまな状況で多くのことを持つことができるからです。アンカーについては、良い考えがあると思います。ありがとう! –