Berkeley Alignerの出力形式の "-P"とは何ですか？

私はいくつかのMT研究にBerkeley Alignerを使用したいと思います。明らかに、GIZA ++はかなり手応えがあります（一部の報告された結果では32％のアラインメントエラーが減少しています）。 Berkeley Alignerの "examples"ディレクトリの出力は、MosesがGIZA ++の出力ファイル（つまり、アラインされた単語インデックスのペア）と同じように見えますが、特定のペアの後に面白い探しの "-P"があります。私は、これらの "-P"注釈が意味するもの（Berkeley Alignerの "documentation"ディレクトリにはない）のドキュメントを見つけることはできません。Berkeley Alignerの出力形式の "-P"とは何ですか？

わかりやすくするために、少し具体的な例を示します。「JeanplâitàMarie」と「MarieがJeanを好き」という文章があるとします。フランス語はソース言語、英語はターゲット言語です。単語 "Jean"（インデックス0と2、およびマリー）（インデックス3と0、それぞれ）は、両方の文章と "plâit"と "à"（フランスのインデックス1と2、）は、「好き」（英語の索引1）に揃っています。モーゼス・後処理GIZA ++出力では、これは、ソース・ターゲット・インデックスのペアのリストで示されます：

0-2 1-1 2-1 3-0

バークレーアライナはかなりこれを似たファイルを生成しますが、いくつかのインデックスのペアは、それらの上に-Pを持っています（例えば、あなたはかもしれません。は1-1-Pのように見えます）。

これは何を意味しますか？これらの-Pアノテーションを安全に削除して、GIZA ++ - Mosesスタイルのアライメントを取得することはできますか？何かもっとやりたいことはできますか（たとえば、アライメントした一連のインデックスペアにそれらを掛けたり、

出典

2010-11-18 Dennis

http://tlt.its.psu.edu/suggestions/international/bylanguage/french.htmlからフランス語のアクセントをコピーするか、同じページからWindowsに入力する方法を学ぶことができます。 –

このコメントは生産性が高いと思われますか？ – Dennis

そしてなぜWindowsでH-Eダブルホッケーのスティックが使えるのですか？ – Dennis

私はこれについて多くを知らないが、私はコードで検索をした：

http://www.google.com/codesearch?hl=en&lr=&q=%22-P%22+package:http://berkeleyaligner .googlecode.com & SBTN =検索

/** 
    * Writes the sure and proposed alignments in a modified 
    * version of the Pharaoh format. 
    * 
    * For example, if we have 7 sure alignments and two possibles, we get: 
    * 
    * enPos1-frPos1 enPos2-frPos2 ... enPos8-frPos8-P enPos9-frPos9-P 
    * 
    * here, the -P indicates possible alignments. 
    */ 
    public String outputHard() { 
      return dumpModifiedPharaoh(false); 
    }

これらは「可能」整列しているように思え。これは、Pharaoh（？）形式で 'ハード'アラインメントを出力するようにコードが設定されているためです。 -Pアライグメントを使用するかダンプするかを決定したり、 "ソフト"出力に切り替えて、各ペアに強さを与え、しきい値パラメータをスイープするように思えます。

出典

2010-11-18 18:24:26 Stompchicken

Berkeley Alignerの出力形式の "-P"とは何ですか？

答えて

関連する問題