私はいくつかのMT研究にBerkeley Alignerを使用したいと思います。明らかに、GIZA ++はかなり手応えがあります(一部の報告された結果では32%のアラインメントエラーが減少しています)。 Berkeley Alignerの "examples"ディレクトリの出力は、MosesがGIZA ++の出力ファイル(つまり、アラインされた単語インデックスのペア)と同じように見えますが、特定のペアの後に面白い探しの "-P"があります。私は、これらの "-P"注釈が意味するもの(Berkeley Alignerの "documentation"ディレクトリにはない)のドキュメントを見つけることはできません。Berkeley Alignerの出力形式の "-P"とは何ですか?
わかりやすくするために、少し具体的な例を示します。 「JeanplâitàMarie」と「MarieがJeanを好き」という文章があるとします。フランス語はソース言語、英語はターゲット言語です。単語 "Jean"(インデックス0と2、およびマリー)(インデックス3と0、それぞれ)は、両方の文章と "plâit"と "à"(フランスのインデックス1と2、 )は、「好き」(英語の索引1)に揃っています。モーゼス・後処理GIZA ++出力では、これは、ソース・ターゲット・インデックスのペアのリストで示されます:
0-2 1-1 2-1 3-0
バークレーアライナはかなりこれを似たファイルを生成しますが、いくつかのインデックスのペアは、それらの上に-Pを持っています(例えば、あなたはかもしれません。は1-1-Pのように見えます)。
これは何を意味しますか?これらの-Pアノテーションを安全に削除して、GIZA ++ - Mosesスタイルのアライメントを取得することはできますか?何かもっとやりたいことはできますか(たとえば、アライメントした一連のインデックスペアにそれらを掛けたり、
http://tlt.its.psu.edu/suggestions/international/bylanguage/french.htmlからフランス語のアクセントをコピーするか、同じページからWindowsに入力する方法を学ぶことができます。 –
このコメントは生産性が高いと思われますか? – Dennis
そしてなぜWindowsでH-Eダブルホッケーのスティックが使えるのですか? – Dennis