0

私がしようとしているのは、Microsoftなどの会社名を入力して、コンピュータソフトウェア業界にあることを予測できるようにすることです。私はおよそ15万の名前と60以上の産業を持っています。名前の中には英語の会社名がないものもあります。企業名を業界に分類する機械学習

私は、会社名のみに基づいてGensimを使用してWord2Vecモデルをトレーニングし、SKlearnのロジスティック回帰にそれを与える前に単語ベクトルを平均化しましたが、ひどい結果をもたらしました。私の質問は次のとおりです。

  1. 誰もこの種のタスクを試しましたか?短い文章分類を検索すると、純粋な名前の代わりに短い文章を分類した結果が表示されます。誰もがこれを試したことがある場合は、このタスクに関するいくつかのキーワードや研究論文を共有することを心配ですか?

  2. 各社の名前を使用するのではなく、簡単な説明がある方が良いでしょうか?会社名だけを使用するのではなく、Word2Vecモデルのためにどれくらい助けてくれますか?

+0

ニューラルネットワークで単語ベクトルをすでに取得しているので、 'softmax'出力レイヤーでニューラルネットワークを使用して分類を行うことができます。単語埋め込みレイヤーを分類レイヤーと同時にトレーニングすることもできます。 – Huang

+0

分類レイヤと同時に単語埋め込みレイヤをトレーニングすることは何を意味しますか? @Huang –

+0

)でネットワークを構築する。入力層(会社名または説明)。 b)埋め込み層のワードとc)。 'softmax'出力(分類)レイヤーです。次に、業界別にネットワークを訓練します(クラスラベルとして)。 – Huang

答えて

1

これは企業の業界関係だけなので、word2vecは特定の単語に関連する類似の単語を計算するために働くため、会社の説明データを使用してword2vec modelをトレーニングする必要があります。あなたに悪い結果を与える企業の名前に基づいています。記述を練習すると、特定の業界に関連する同様の言葉が得られます。それを使用することによって、それが属する業界を得ることができます。

企業名に基づいて訓練したい場合は、NER(Named Entity Tagger)が便利です。しかし、これは正確ではありません。

0

あなたがしたいことはわかりません。

企業の名前だけを使用するのであれば、名前を音節/音素に分割し、そのデータを訓練することができます。

Word2Vecを使用するのがポイントであれば、各会社のWikipediaページを引っ張ることをお勧めします(「私について」よりも自動化が容易です)。

+0

「私について」の部分を削除しました。データの取得方法を強調したくないからです。会社の説明で訓練されたWord2Vecモデルは、音節で訓練されたWord2Vecモデルよりも優れていますか? –

+0

@AyynonNimusTraining企業の説明に基づいたword2vecモデルは良いでしょう。それで、あなたはそれが属している業界を取得するように会社名の使用状況を把握することができます。私の答えを確認してください。 –

関連する問題