2016-04-19 8 views
0

私は隠れマルコフモデルを研究しているEMアルゴリズムには新しいです。EMを使ってHMMを訓練することについて

EMによる私のHMMのトレーニング中に、私はデータ設定について非常に混乱しています。 (テキスト処理)

私のEM使用が大丈夫かどうか確認してください。

最初は、私のトレーニングセット全体で排出確率マトリクスの統計を計算しました。そして、私は同じセットでEMを走らせました。 - >目に見えないデータの排出確率は、その時点でゼロに収束しました。

私はテキストとスピーチと言語処理を読んでいましたが、私は運動8.3が2相訓練方法を教えていることを発見しました。

8.3演習8で作成したHMMタグを拡張します。ラベル付きのトレーニングコーパスに加えてラベルのないデータを使用する機能を追加することによって、まず、ラベルのない大きなコーパスを取得します。次に、前方 - 後方トレーニングアルゴリズムを実装する。演習8のトレーニングコーパスで訓練したHMMパラメータから始めましょう。このモデルをM0と呼ぶ。これらのHMMパラメータを用いて前方 - 後方アルゴリズムを実行し、監視されていないコーパスにラベルを付ける。新しいモデルM1が完成しました。保留中のラベル付きデータに対して、M1の性能をテストします。

このステートメントに続いて、トレーニングセット(トレーニングセットの1/3)からいくつかのインスタンスを選択して初期統計情報を取得します。 次に、EMのパラメータを最適化するためにトレーニング全体を設定したEMプロシージャを実行します。

大丈夫ですか?

答えて

0

練習問題が指している手順は、自己訓練と呼ばれる教師なし学習の一種です。アイデアは、あなたがモデルを構築するためにラベル付きtrainignセット全体を使用することです。次に、ラベルが付けられていないデータをさらに収集します。ラベルの付いていない新しいデータを見つけることは、新しいラベルの付いたデータを見つけることよりもずっと簡単です。その後、最初に訓練したモデルを使用して新しいデータにラベルを付けます。今、自動的に生成されたラベルを使用して、新しいモデルを訓練する。

+0

ありがとうございます。あなたのコメントは一般的なHMMの訓練手続きか、または自己訓練についてのみですか? –

+0

セルフトレーニング。訓練は、この手順のサブルーチンとして考えることができます。 – Aaron

+0

ありがとうございます!あなたのコメントは私の質問を解決する良い方向になることができます。 –

関連する問題