Natural Language CFG builderアルゴリズム

私は自然言語処理プロジェクトに取り組んでいます。アラビア語の図書館を構築することを目指しています。私たちはPOSタガーに取り組んでいます。今は文法の段階で考えています。アラビア語や他の多くの人は文法が複雑なので、文脈自由文法（CFG）を構築することは非常に難しいです。この理由から私は、教師なし学習を使用しているタガーコーパスから任意の言語のCFG（確率PCFG）を構築するアルゴリズムのアイデアを持っていました。アルゴリズムを説明するために、私はこれら三つの入力として文タグ付けされたと仮定： 1-動詞名詞 2-動詞名詞件名 3-動詞名詞件名副詞をアルゴリズムが得られる： 1）A - >動詞名詞 2） B - > A Subject 3）C - > B副詞。
特定のPCFGで処理できるように、このステートメントを各ステートメントについて繰り返します。アルゴリズムの主力は文全体を見ることを超えているため、確率は条件付きであり、固有である。その後、CKYアルゴリズムを適用して、確率を使用して新しいステートメントに最適なツリーを選択することができます。このアルゴリズムは良いと思いますか？それを改善し続ける価値はありますか？Natural Language CFG builderアルゴリズム

出典

2009-09-11 Hani

私はM.Sc.に似たようなことをしました。論文 - CFGルールの学習（確率なし）部分文法とPOSタグ付けの使用。 PCFGの学習に関する参考文献リストについては、this questionへの私の答えをご覧ください。 1つのアプローチは、単語情報とノード名を含む字句化文法を学習することです。

コンテキストなしであなたの質問に答えるのは難しいです：良いアルゴリズムとは何でしょうか？十分な言語モデルを提供するもの？それは統計的尺度を最小限に抑えるか？それは十分に効率的ですか？

アラビア語の豊富な形態を考えると、文法に形態を追加することができます。性別と番号の一致機能を追加します。

出典

2009-09-11 21:49:57

Natural Language CFG builderアルゴリズム

答えて

関連する問題