1
機械翻訳では、通常どのように句読点を扱うのか不思議です。例えば機械翻訳における句読点の扱い方
、言語Aから我々が持っているかもしれませんBへ:
A: a b c d e f g
B: x y z, u v w
は、私たちは、言語Bにカンマを扱うべきですか疑問に思って? seq2seqモデルを使用している場合は、単純に削除しますか、それとも埋め込みを生成し、他の単語を扱うのと同じ方法でコンマを処理するのでしょうか?
私が何かを見逃していなければ、それについての論文は明示的に語っていないと思います。
あなたのお返事ありがとうございます@alvas!その後のフォローアップの質問では、カンマ(およびその他の句読点)を表す埋め込みが必要ですか? –
思考のための食べ物:句読点は言語の単語ほど重要ですか?ほとんどの機械学習モデルは、どのような種類のトークンが文中に存在するかを区別しない。文章がトークン化されている限り、スペースで区切られたもの(言葉/句読点/絵文字/バイトコード)はトークンとみなされます; P – alvas
です。したがって、私があなたのコメントを正しく理解していれば、私たちのモデルでは単語と句読点を区別しません。規則的な言葉に適用するあらゆる技法は、句読点にも同様に適用できます。その理解は正しいのでしょうか? –