2011-06-22 20 views
0

英語の単語の検出は、私は、URLの大規模なデータベースを持っていると私は、URLに含まれる単語を分類し、このデータから、英語の単語を抽出したい英語の単語の分類

例:apple.com - >リンゴ:果物やアプリ:コンピュータ

他のPHPスクリプトはI

分類に文字列あたりの言葉をいただきたいが、何私は助けを必要とする英語の単語のためのオープンデータソースである例えば忍者にあります=武道

PHPの部分は単に検索します。 私はページコンテンツを分類するためのベイジアンスクリプトを見てきましたが、これはいくつかの言葉の方が多く、必要以上に複雑かもしれません。事前に

乾杯、あなたがWordnet

+2

です」という文章を完成させるように考えてください。それはより良い、そして間違いなくより有用な分類につながる。リンゴは果物です。アプリはコンピューターではなく、関連しているだけです。そして、忍者は実際には戦闘機です。 – Leif

+0

重要な部分のドメイン名を使用してサイトのコンテンツを分類しようとしていますか?もしそうなら、幸運。あなたの誤分類率は高くなります。たとえば、Googleに「靴」と入力し、名前が概念「靴」とは何の関係もないドメインの割合を確認します。 – Tim

+0

これは販売のためのドメイン名のリストであり、カテゴリを持つことによってカテゴリ/タグ別にクラスタリングすることができます。また、 "あなたも好きです"と追加することができます。 – Jaybest

答えて

0

になります。これは、単語をそれらの同義語のセット(synset)でグループ化することによって単語を分類する語彙リソースです。意味のある分類をするのに役立ちます。

関連する問題