2016-11-20 9 views
-2

会社の説明から抽出された一連のキーワードが与えられ、会社の 'タイプ'を分類するモデルを作成したいと考えています。例を挙げて説明しましょう。小規模データセットのNLP分類/推論 - >単語埋め込みアプローチ

は「Snapchatはエバン・シュピーゲル、ボビー・マーフィー、とレジー・ブラウンによって作成された画像メッセージングおよびマルチメディアモバイルアプリケーションである、[3]スタンフォード大学の元学生、および、もともと株式会社Snapchatスナップ株式会社が開発した」

サンプル抽出キーワード:「画像メッセージング」。 「マルチメディアモバイルアプリケーション」

この情報を考えると

(Snapchat上のWikipediaのページから)、私のモデルは、「画像メッセージング」と「マルチメディア携帯から「IT」と「SNS」を推測する必要があります。応用"。

(抽出されたキーワードを使用しない理由を尋ねている場合は、すべての企業で可能な限りラベルに分類したいので、 'IT'と 'SNS'は 'imageメッセージングなど)

現在、私のデータセットはそれほど大きくありません。何百ものデータエントリについて、〜80%は私が望む方法で情報を含んでいます。この情報を元に、会社の説明から抽出したキーワードを処理し、正しいラベルを付けたいと考えています。

このプロジェクトで私を助けるための提案は素晴らしいでしょう。

答えて

0

特定のドメインの企業をターゲットにしている場合は、小さなデータセットを使用すると役立ちます。したがって、次のようなアプローチがあります。

抽出されたキーワードのあらかじめ訓練された単語埋め込み(例:Glove)を使用して、企業の埋め込みを見つけます。単語の埋め込みからフレーズやセンテンスを構成するようなものです。会社の埋め込みに名前を付けることができます!同様のタイプの企業には同様の埋め込みが必要です。だから、究極の考えは、単語埋め込みで見るGoogle - Ford = Microsoft - Teslaのような関係を形成することです。たとえば、Google = search engine + youtube + androidのような埋め込みを使用して、他の興味深い算術関係について考えることもできます。ここで、右側の用語は抽出されたキーワードです。

さらに分類するには、company typeの情報が必要ですが、機械学習分類器を使用すると非常に簡単です。あなたは全体的な目標を達成するために単純なテキスト分類子を使うことができますが、NLP技術を使ってこれを達成することは興味深いでしょう。

関連する問題