-4

私は単語とテキストのデータセットを持っており、クラスタを(K平均で)作成するか、または他の教師なし/監督下の学習方法を使って単語を区別したいとします。例えば、単語「John」は名前として(そして他の人の名前と一緒に集まる)、場所としての「ブラジル」など。 問題を解決するために使用できるモデルはありますか? 私はNgramsの聞いたことがあるが、私はあなたがテキストマイニングと機械学習

+0

「名前」と「場所」のみが気になる場合は、名前付きエンティティソリューションを探す必要があります。それ以外の場合は、ラベル付きデータの優れた情報源(気になるラベル)を見つけ出して開発し、それに基づいて分類子を学ぶことができます。 – greeness

+0

あなたは*管理された*仕事、分類を記述しています。 –

+0

私はデータをクラスター化して、意思決定の境界を作って、単語のタイプを近似できるようにしたい(クラスターは最終的にクラスに分類されます) – DavidOooO

答えて

0

方法word2vecと埋め込みについての素晴らしいことだろう任意の例を持っている場合のx、yのプロットや、
P.SにNgrams確率をプロットする方法を知りませんか?
https://deeplearning4j.org/word2vec

+0

あらかじめ定義されたクラスがないと、word2vecは良い解決策です。ここでは、テンソルフローのソリューションですhttps://www.tensorflow.org/versions/r0.11/tutorials/word2vec/index.html単語をベクトルの形で表現し、次に余弦距離などを使って表すことができますクラスタリングを行う。あらかじめ定義されたクラスをお持ちの場合は、監視学習を使用する必要があります。 – Rob