2010-11-18 10 views
1

私はいくつかのMT研究にBerkeley Alignerを使用したいと思います。明らかに、GIZA ++はかなり手応えがあります(一部の報告された結果では32%のアラインメントエラーが減少しています)。 Berkeley Alignerの "examples"ディレクトリの出力は、MosesがGIZA ++の出力ファイル(つまり、アラインされた単語インデックスのペア)と同じように見えますが、特定のペアの後に面白い探しの "-P"があります。私は、これらの "-P"注釈が意味するもの(Berkeley Alignerの "documentation"ディレクトリにはない)のドキュメントを見つけることはできません。Berkeley Alignerの出力形式の "-P"とは何ですか?

わかりやすくするために、少し具体的な例を示します。 「JeanplâitàMarie」と「MarieがJeanを好き」という文章があるとします。フランス語はソース言語、英語はターゲット言語です。単語 "Jean"(インデックス0と2、およびマリー)(インデックス3と0、それぞれ)は、両方の文章と "plâit"と "à"(フランスのインデックス1と2、 )は、「好き」(英語の索引1)に揃っています。モーゼス・後処理GIZA ++出力では、これは、ソース・ターゲット・インデックスのペアのリストで示されます:

0-2 1-1 2-1 3-0 

バークレーアライナはかなりこれを似たファイルを生成しますが、いくつかのインデックスのペアは、それらの上に-Pを持っています(例えば、あなたはかもしれません。は1-1-Pのように見えます)。

これは何を意味しますか?これらの-Pアノテーションを安全に削除して、GIZA ++ - Mosesスタイルのアライメントを取得することはできますか?何かもっとやりたいことはできますか(たとえば、アライメントした一連のインデックスペアにそれらを掛けたり、

+0

http://tlt.its.psu.edu/suggestions/international/bylanguage/french.htmlからフランス語のアクセントをコピーするか、同じページからWindowsに入力する方法を学ぶことができます。 –

+0

このコメントは生産性が高いと思われますか? – Dennis

+0

そしてなぜWindowsでH-Eダブルホッケーのスティックが使えるのですか? – Dennis

答えて

1

私はこれについて多くを知らないが、私はコードで検索をした:

http://www.google.com/codesearch?hl=en&lr=&q=%22-P%22+package:http://berkeleyaligner .googlecode.com & SBTN =検索

/** 
    * Writes the sure and proposed alignments in a modified 
    * version of the Pharaoh format. 
    * 
    * For example, if we have 7 sure alignments and two possibles, we get: 
    * 
    * enPos1-frPos1 enPos2-frPos2 ... enPos8-frPos8-P enPos9-frPos9-P 
    * 
    * here, the -P indicates possible alignments. 
    */ 
    public String outputHard() { 
      return dumpModifiedPharaoh(false); 
    } 

これらは「可能」整列しているように思え。これは、Pharaoh(?)形式で 'ハード'アラインメントを出力するようにコードが設定されているためです。 -Pアライグメントを使用するかダンプするかを決定したり、 "ソフト"出力に切り替えて、各ペアに強さを与え、しきい値パラメータをスイープするように思えます。