2009-09-02 13 views
0

私は何らかの方法で分類する必要があるXサイトのリストを持っています。車、健康、製品についてのサイトですか、それについては何ですか(wikihow、about.comなど)?このようなサイトを分類するためのより良い方法は何ですか?トラフィックをサイトに持ち込んで使用するキーワードを取得する必要がありますか?私はいくつかのランダムなページの内容を読んでそれを判断すべきですか?サイトのリストを分類する最良の方法は何ですか?

+0

それは...何ですかあなたはやろうとしていますか?検索エンジンは、キーワード、フレーズ、リンクなどすべてを分析する必要があります。 – collimarco

答えて

1

サイトがうまく設計されていれば、ヘッダーにこれ専用のメタタグがあります。

+1

<0.1%のインターネットサイトが「よく設計されています」;-) –

1

Yahooは、用語を抽出するためのAPIを持っていhttp://developer.yahoo.com/search/content/V2/termExtraction.html

「用語抽出Webサービスの方が大きいコンテンツから抽出された重要な単語やフレーズのリストを提供します。これは、Y!Qに使用される技術の一つです。」

0

これは答えが難しい質問です。検討してください:

  • 分類がどの程度細かいですか?
  • あなたが独自の基準またはサイトが提供する基準に基づいてサイトを分類しますか?つまり、サイトが「オートバイのメンテナンスのための最高のソース」として分類されている場合、そのサイトのためだけに「オートバイのメンテナンス」カテゴリを作成しますか?これは、もちろん、あなたのリストが矛盾する原因になります。しかし、自分の分類スキームに従うようにサイトを鳩詰めすると、情報が失われ、定義したカテゴリにサイトが一致しないというリスクがあります。
  • サブカテゴリを許可していますか?問題があればはるかに複雑になります。
  • サイトは複数のカテゴリに属していますか?もしそうなら、発注または重量(すなわち、主要カテゴリ、副カテゴリなど)があるか、またはSOのタグと同様のスキームに従っていますか?

問題の最初の刺し傷として、私はカテゴリのセットを定義し、各カテゴリ名の出現回数またはその突然変異を追跡して各サイトをスパイダーすると思います。次に、「ヒット数」が最も多い名前を選択できます。

タイトルで書籍禅のタイトルに不似合いの遊びがある:サイトからのテキストの次のブロックをスパイダリング

{ "Cars", "Motorcycles", "Video Games" } 

:以下のカテゴリー与え例えば

、 Eugen Herrigelによるアーチェリーの芸術。その導入に際し、Pirsigは、タイトルにもかかわらず、「これは正統派禅仏教の実践に関する事実上の情報の大きな本体とは決して関連してはならない」とオートバイのいずれでもないと述べている。

と:1980年以降に行われた

ほとんどオートバイが適切に維持された場合、かなり信頼性があるが、それはもし大きいです。ある程度、今日の高い信頼性オートバイは、多くのライダーの欠点に取り組んできました。いくつかのライダーは、オートバイは、現代のようなものであると信じていませんと本質的にメンテナンスが必要です。これは当てはまりません(台の車でも)。現代のバイクは、60年代と70年代のメンテナンスよりもメンテナンスが少なくて済みますが、よりも多くのメンテナンスが必要です。この高い信頼性は、自転車で作業する方法や信頼性を確実にするために本当に必要なことを手がかりにしていない、オートバイの全員が出ていることを意味します。

我々は、次のスコアを取得:

{ "Cars" : 3, "Motorcycles" : 4, "Video Games" : 0 } 

をそして、我々はこのように「オートバイ」に主に関連していると、サイトを分類することができます。

カテゴリ名に関して私は「その突然変異」と言ったので、「オートバイ」または「車」の両方が検出されます。このことから、おそらく関連する単語のリストの使用を検討すべきであることがわかります。たとえば、「オートバイ」のインスタンスを検索するときに、おそらく「オートバイ」という単語を検出する必要があります。おそらく、「モダンバイク」も見たはずです。

これらのヒットを保存し、おそらく他のデータと組み合わせて、ベイジアン確率を使用して、サイトが最も適合するカテゴリを判断することもできます。

1

私は少し偏っているかもしれません(免責:私は図書館学の学位を持っていますが、このトピックは私が学位を取った理由の1つです)ので、最も簡単な答えは最善の方法がないということです。

データベース設計と同様に、システムを実装したら、どのような質問をしますか?

サイトが政府によって重要な役割を果たしているという事実は重要ですか?それとも、それはフラッシュを使用していますか?または、ページが青いですか?それとも、それは趣味のサイトですか?または、対象となる視聴者は子供ですか?

次に、我々が懸念しているファセットのいずれかに階層化されたカテゴリがあるかどうかを質問します。オートバイの両方については、代わりに?そして、それを行うと、「オートバイ」がより広範な用語(すなわち、車両)にもマッチするように、キーワード拡張を使用するのでしょうか?

だから...ポイントは...あなたのニーズが何であるかを把握し、それに向けて取り組むことです。 'Weblog 'がウェブサーバのメトリクスに関係していたときに覚えていますか?)