2017-09-19 14 views
1

機械翻訳では、通常どのように句読点を扱うのか不思議です。例えば機械翻訳における句読点の扱い方

、言語Aから我々が持っているかもしれませんBへ:

A: a b c d e f g 
B: x y z, u v w 

は、私たちは、言語Bにカンマを扱うべきですか疑問に思って? seq2seqモデルを使用している場合は、単純に削除しますか、それとも埋め込みを生成し、他の単語を扱うのと同じ方法でコンマを処理するのでしょうか?

私が何かを見逃していなければ、それについての論文は明示的に語っていないと思います。

答えて

0

Seq2Seqの良いアプリケーションは機械翻訳です。

英語 - >ドイツ語の場合、追加のコンマを必要とするドイツ語の文章が表示されます。

EN:大佐が私に言ったので、私は彼を撃った。

DE: Ich habe auf ihn geschossen、weil es der Oberst mir befohlen hatte。

weilより前の最初のサブセクションには、良いモデルが自動的に学習されます。コンマが文法的である必要があります。

事前に余分な前処理を行う必要はありません。

+0

あなたのお返事ありがとうございます@alvas!その後のフォローアップの質問では、カンマ(およびその他の句読点)を表す埋め込みが必要ですか? –

+0

思考のための食べ物:句読点は言語の単語ほど重要ですか?ほとんどの機械学習モデルは、どのような種類のトークンが文中に存在するかを区別しない。文章がトークン化されている限り、スペースで区切られたもの(言葉/句読点/絵文字/バイトコード)はトークンとみなされます; P – alvas

+0

です。したがって、私があなたのコメントを正しく理解していれば、私たちのモデルでは単語と句読点を区別しません。規則的な言葉に適用するあらゆる技法は、句読点にも同様に適用できます。その理解は正しいのでしょうか? –

関連する問題