2009-09-11 16 views
1

私は自然言語処理プロジェクトに取り組んでいます。アラビア語の図書館を構築することを目指しています。私たちはPOSタガーに取り組んでいます。今は文法の段階で考えています。アラビア語や他の多くの人は文法が複雑なので、文脈自由文法(CFG)を構築することは非常に難しいです。この理由から私は、教師なし学習を使用しているタガーコーパスから任意の言語のCFG(確率PCFG)を構築するアルゴリズムのアイデアを持っていました。アルゴリズムを説明するために、私はこれら三つの入力として文タグ付けされたと仮定: 1-動詞名詞 2-動詞名詞件名 3-動詞名詞件名副詞を アルゴリズムが得られる: 1)A - >動詞名詞 2) B - > A Subject 3)C - > B副詞。
特定のPCFGで処理できるように、このステートメントを各ステートメントについて繰り返します。アルゴリズムの主力は文全体を見ることを超えているため、確率は条件付きであり、固有である。その後、CKYアルゴリズムを適用して、確率を使用して新しいステートメントに最適なツリーを選択することができます。 このアルゴリズムは良いと思いますか?それを改善し続ける価値はありますか?Natural Language CFG builderアルゴリズム

答えて

1

私はM.Sc.に似たようなことをしました。論文 - CFGルールの学習(確率なし) 部分文法とPOSタグ付けの使用。 PCFGの学習に関する参考文献リストについては、this questionへの私の答えをご覧ください。 1つのアプローチは、単語情報とノード名を含む字句化文法を学習することです。

コンテキストなしであなたの質問に答えるのは難しいです:良いアルゴリズムとは何でしょうか? 十分な言語モデルを提供するもの?それは統計的尺度を最小限に抑えるか?それは十分に効率的ですか?

アラビア語の豊富な形態を考えると、文法に形態を追加することができます。性別と番号の一致機能を追加します。

関連する問題