2017-03-22 10 views
-1

考えるデータベース含むフレーズどのようにテキストのセットを与えられた単語の情報利得を計算しますか?

例:

  1. 確認作業が遅い

  2. 作業の壁紙

  3. 作業に必要なリプライ通知ワーキンググループ

私は別個の単語ごとに情報の利得を計算する必要があります。

  1. IG( '仕事')
  2. IG( 'チェック')
  3. ....

私は、エントロピーと情報ゲインの概念を学んだが、私はどのようにわかりませんそれをフレーズで適用する。 私はこのリンクを見ました:https://mariuszprzydatek.com/2014/10/31/measuring-entropy-data-disorder-and-information-gain/ 私の場合、フレーズカテゴリはありません。 私は、どの語句が文句だけを与えられた最大の情報を持っているかを知る必要があります。

+0

これはCrossValidatedのためのより適切である、私はむしろStackOverflowのよりも、と思います。 –

+0

まず、各単語にどれくらいの価値があるかを知るには、まず各文に値を設定する必要があります。そして、あなたは3文以上必要です。それはトレーニングセットの非常に小さすぎます – Buzz

+0

ありがとうございます。私のセットは30000のフレーズを持っていますが、これはより良い説明をするための簡単な例です。どのように各文の値を定義しますか?手動で? –

答えて

関連する問題