産業用デバイスで実行されるさまざまなアクティビティに関するオペレータからのコメントを表すデータがあります。このコメントは、日常のメンテナンス/交換作業のいずれかを反映している可能性があり、損傷が発生したことを示すことができ、損傷を修正するために修理しなければならなかった。 私は2つのバケットに分類される必要がある200,000文のセットを持っています - 修理/予定保守(または未定)。これらはラベルがないため、教師なし学習ベースのソリューションを探しています。以下に示すように文章の教師なし学習
いくつかのサンプルデータは、次のとおりです。
「モーターコイルは.Replacedモータを損傷し、」 「時折問題を起動置き換えスイッチ。」
「置き換え「見ベルト亀裂がインストールされた新しいベルトが。」ベルト " "オイル交換とクリーニングが完了しました "。 "予防メンテナンススケジュールを実行しました"
最初の3つの文章は修復とラベル付けされ、2番目の文はスケジュールされたメンテナンスとラベル付けされなければなりません。
この問題を解決するにはどうすればよいでしょうか。私は機械学習にいくつかの露出を持っていますが、私はNLPベースの機械学習を初めて熟知しています。
私はこのhttps://pdfs.semanticscholar.org/a408/d3b5b37caefb93629273fa3d0c192668d63c.pdf https://arxiv.org/abs/1611.07897
に関連する多くの論文を参照してくださいが、このような問題への任意の標準的なアプローチがある場合、あなたはそれが、この場合に思えるいくつかの信頼性の高いキーワード(動詞を使用することができますように
オプションのおかげで、私はオプションを探るつもりです。しかし、KMeansを行うには、意味を保持するように、文をベクトル化するための良い提案は何でしょうか。 –
"意味"は保存するのが難しい(そして定義する!)が、一般的にNGramはある程度の順序を保持するので、コンテキストを維持するのに役立つ。しばしば、私はBIGramsとBag Of Wordsの "features"の両方をクラスター化するでしょう。 1つの課題は、明らかに各文章が「実数」のベクトル空間ではないため、ベクトル正規化が疎であることです。少量のデータに対しては、簡単に正規化することができます。 – markg