を分類します。は、私はそれが属するウェブサイトのビジネスのカテゴリ/ business_domainを特定したいウェブサイトのビジネスドメイン
例:超人的なウェブサイト。流行語によって供給会社製の電子メールクライアントは、& UIを備えています。
だから、ウェブサイトの短いカテゴリーにプロフェッショナルEメールサービスすることができます。
私のイニシャルの考えの一部は、LDAアルゴリズム(pythonモジュール)をウェブサイトのabout_usテキストに適用しています&会社のFacebook情報ページ。しかし、このアプローチは多くの場合には機能しません。どんな洞察?
LDAの詳細: は20000回のパスと1つのトピックを使用して、http://aakritiartgallery.com/ウェブサイトのための私の結果は
[(0, u'0.050*art + 0.020*aakriti + 0.019*contemporary + 0.017*gallery + 0.015*new')]
がどのように私は、LDAによって与えられたこれらの用語のprobablitiesで自分のビジネスを絞り込むことができますか?
ほとんど大丈夫だが、私はのは2社だけ薬についての情報を与えられた1、また、それらを販売している他があるとしましょう場合でも、分類することができるようになりますので、それらを区別することの両方が持っているであろうからタフであります全く同じ機能 – x0v
LDAは「キーワードジェネレータ」と考えることができます。したがって、私はそれを使って会社の一般的な分野を予測します。 「薬の情報」と「薬の分布」を区別したい場合は、キーワード以外の機能、すなわちリンクの数、頻繁に使用される言葉などが必要です。実際の使用には、1000を超えないようにしてください機能がなければ、速度/メモリのパフォーマンスを心配する必要があります。 – jrhee17
できるだけ多くの情報を収集し、必要に応じて機能削減テクニックを使用してください。また、データを生成する前に、別のラベル(「医薬品情報」、「医薬品の配布」、「医薬品の製造」など)を作成する必要があります。 – jrhee17