2011-12-04 14 views
1

私はプロジェクトに取り組んでいます。その一部はPOSタグ付けのための教師なしHMMトレーナーを開発することです。バウムウェルチアルゴリズムの実装をデバッグする(POSタグ付け用)

私は、Baum-Welchアルゴリズムを使用してモデルをトレーニングしています。入力は、(コーパスから引き出された)シーケンスワードであり、出力は、状態集合(s1, s2, ... sn)からの隠れ状態のシーケンスである。 これでコードは完成しましたが、バグがないかどうかはわかりません。

誰でも私にデバッグのアイディアを教えてもらえますか?アウトプットをどのようにチェックすべきか?私のアルゴリズムの精度をチェックするには?

答えて

1

教師なしPOSタグ付けは、非常に興味深い新たな研究課題です。私が正しく理解していれば、実際にコードをデバッグする方法ではなく、タグ付けの正確さを評価する方法を尋ねています。評価は教師なしPOS誘導における既知の問題である。あなたの質問への答えは、this annotated corpusNLTKから取得し、最も頻繁に共起するタグに状態をマッピングして、状態をコーパスタグにマップし、正しいものの割合を見つけます。この評価手順は、多対一マッピングと呼ばれます。

あなたの質問などにお答えしますので、文献に精通してください。ここではいくつかの場所が起動する、次のとおりです。

  • 早期紙:

    マーク・ジョンソン。なぜEMは良いHMM POS-taggerを見つけられないのですか?自然言語処理と計算自然言語学習における経験的方法に関する2007年共同会議の議事録(EMNLP-CoNLL)、pp.296-305。

  • 調査用紙:

    クリストスChristodoulopoulos、シャロン・ゴールドウォーターとマーク・スティードマン。 2010年。監督されていないPOS誘導の20年:どこまで来たのか? EMNLP 2010年の議事録で

あなたは「教師なし」と言うとき、あなたは唯一の生のテキストを使用するかどうかを自問し、または、例えば、辞書を使いたいはずです。それにも作品があります。

また、タスク用に利用可能なコードがあります。

NLPに関するもう1つの質問は、http://metaoptimize.com/qaです。

その他ご不明な点がございましたら、お気軽にお問い合わせください。

+0

こんにちは、まずはあなたの答えと参照に感謝します 私はまだ評価段階ではありません。現在、私の懸念事項は私の実装技術の正確さです。これまでのNLPの問題の実装経験から、最小のバグが異なる出力につながる可能性があることがわかりました(私の悪いコーディングスタイルのためかもしれません)。この特定のケースでは、一致するサンプルチェックポイントはありません。ウォールストリートジャーナルコーパス(ラベル付きとラベルなし)&私の実験目標は、異なるパラメータ設定で監督されていないラベリングを学ぶことです。 – Irtiza

+0

まず、多対1マッピングで60%の精度を達成しようとします。 – cyborg

+0

ありがとう:) .. thats素晴らしいアイデア:) .. – Irtiza

関連する問題