機械翻訳における句読点の扱い方

機械翻訳では、通常どのように句読点を扱うのか不思議です。例えば機械翻訳における句読点の扱い方

、言語Aから我々が持っているかもしれませんBへ：

A: a b c d e f g 
B: x y z, u v w

は、私たちは、言語Bにカンマを扱うべきですか疑問に思って？ seq2seqモデルを使用している場合は、単純に削除しますか、それとも埋め込みを生成し、他の単語を扱うのと同じ方法でコンマを処理するのでしょうか？

私が何かを見逃していなければ、それについての論文は明示的に語っていないと思います。

2017-09-19 M.Meng

Seq2Seqの良いアプリケーションは機械翻訳です。

英語 - >ドイツ語の場合、追加のコンマを必要とするドイツ語の文章が表示されます。

EN：大佐が私に言ったので、私は彼を撃った。

DE： Ich habe auf ihn geschossen、weil es der Oberst mir befohlen hatte。

weilより前の最初のサブセクションには、良いモデルが自動的に学習されます。コンマが文法的である必要があります。

事前に余分な前処理を行う必要はありません。

2017-10-17 07:39:52 alvas

あなたのお返事ありがとうございます@alvas！その後のフォローアップの質問では、カンマ（およびその他の句読点）を表す埋め込みが必要ですか？ –

思考のための食べ物：句読点は言語の単語ほど重要ですか？ほとんどの機械学習モデルは、どのような種類のトークンが文中に存在するかを区別しない。文章がトークン化されている限り、スペースで区切られたもの（言葉/句読点/絵文字/バイトコード）はトークンとみなされます; P – alvas

です。したがって、私があなたのコメントを正しく理解していれば、私たちのモデルでは単語と句読点を区別しません。規則的な言葉に適用するあらゆる技法は、句読点にも同様に適用できます。その理解は正しいのでしょうか？ –

答えて