2016-05-14 3 views
-1

を分類します。は、私はそれが属するウェブサイトのビジネスのカテゴリ/ business_domainを特定したいウェブサイトのビジネスドメイン

例:超人的なウェブサイト。流行語によって供給会社製の電子メールクライアントは、& UIを備えています。

だから、ウェブサイトの短いカテゴリーにプロフェッショナルEメールサービスすることができます。

私のイニシャルの考えの一部は、LDAアルゴリズム(pythonモジュール)をウェブサイトのabout_usテキストに適用しています&会社のFacebook情報ページ。しかし、このアプローチは多くの場合には機能しません。どんな洞察?

LDAの詳細: は20000回のパスと1つのトピックを使用して、http://aakritiartgallery.com/ウェブサイトのための私の結果は

[(0, u'0.050*art + 0.020*aakriti + 0.019*contemporary + 0.017*gallery + 0.015*new')] 

がどのように私は、LDAによって与えられたこれらの用語のprobablitiesで自分のビジネスを絞り込むことができますか?

答えて

1

@ Anony-Mousseは、1つのアルゴリズムに固定するのではなく、ロードプランを立てることができます。あなたの状況を考えれば、これは私がやることです。

前処理/特徴抽出

NMF、LSAは、LDAはほとんど意味特徴を抽出する前処理に使用される教師なし技法です。 NLPでは、通常、大量のテキストで意味のある単語を抽出することに対応します。これらの手法を使用することで、生データを処理して意味のある機能を得ることができます。これらのアルゴリズムはそれ自体が予測を提供せず、通常は良いモデルを作成するのに十分ではありません。あなたのケースでは

トレーニング

、あなたのモデルを訓練し、予測を行うために構造化されたデータが必要になります。たとえば、あなたはあなたのLDAのあなたの結果を使用することができます(あなたが実際にこれらのキーワードのインデックスを使用する)事業ドメイン(またはあなたのラベル)にマッピングされました。

すなわち) (ラベル)IT:(機能)は、JavaやPython、サーバー (ラベル)動物園:(機能)サル、シマウマ、キリン (ラベル)IT:(機能)NLP、機械学習

あなたには、いくつかのデータ(非常に少なくとも(#特徴* #LABEL))を収集した後、あなたはあなたの好みの教師モデルを訓練することができます。 (などのReg、SVM、NNを、ログ)

テスト

あなたの予測スコアを評価し、アルゴリズムを実装します。

が、これは、これは簡単な作業でないと述べました。あなたは、カテゴリ/サブカテゴリ、意味のある特徴を抽出する他の手段などを特定することに対処しなければならないでしょう。私はこのプロジェクトに長い時間をかけます。がんばろう!

+0

ほとんど大丈夫だが、私はのは2社だけ薬についての情報を与えられた1、また、それらを販売している他があるとしましょう場合でも、分類することができるようになりますので、それらを区別することの両方が持っているであろうからタフであります全く同じ機能 – x0v

+0

LDAは「キーワードジェネレータ」と考えることができます。したがって、私はそれを使って会社の一般的な分野を予測します。 「薬の情報」と「薬の分布」を区別したい場合は、キーワード以外の機能、すなわちリンクの数、頻繁に使用される言葉などが必要です。実際の使用には、1000を超えないようにしてください機能がなければ、速度/メモリのパフォーマンスを心配する必要があります。 – jrhee17

+0

できるだけ多くの情報を収集し、必要に応じて機能削減テクニックを使用してください。また、データを生成する前に、別のラベル(「医薬品情報」、「医薬品の配布」、「医薬品の製造」など)を作成する必要があります。 – jrhee17

0
  1. 列車に
  2. クラシファイア
  3. 分類をトレーニングデータを入手!
関連する問題