machine-translation

    1

    1答えて

    機械翻訳では、通常どのように句読点を扱うのか不思議です。例えば 、言語Aから我々が持っているかもしれませんBへ: A: a b c d e f g B: x y z, u v w は、私たちは、言語Bにカンマを扱うべきですか疑問に思って? seq2seqモデルを使用している場合は、単純に削除しますか、それとも埋め込みを生成し、他の単語を扱うのと同じ方法でコンマを処理するのでしょうか? 私が何

    0

    1答えて

    私はfast_align https://github.com/clab/fast_alignを使用して、1000のドイツ語の文章と1000の英語の翻訳の間の単語のアライメントを取得しています。これまでのところ、品質はあまり良くありません。 プロセスの文章をもっとスローすると、fast_alignはより正確になりますか? OPUSのデータを100k整列した文章ペアで取り上げ、最後に1000文を追加

    1

    1答えて

    NMTのように、シーケンスエンコーダデコーダモデルのシーケンスを使用してチャットボットを構築しています。与えられたデータから、訓練の際にデコーダの出力をエンコーダのセル状態とともにデコーダの入力に供給することを理解することができます。私は実際にリアルタイムでチャットボットを展開しているときに、その時間が予測しなければならない出力であるため、デコーダに何を入力すればよいのかを理解できません。誰かが私

    0

    1答えて

    私はTensorflow seq2seq tutorialを使用して機械翻訳を再生しています。私はしばらくモデルを訓練し、元のボキャブに新しい言葉を補足してモデルの品質を向上させたいと決めているとします。トレーニングを一時停止したり、単語を語彙に追加したり、最新のチェックポイントからトレーニングを再開する方法はありますか?私はそうしようとしましたが、私は再びトレーニングを始めたとき、私はこのエラー

    -2

    1答えて

    機械翻訳データには、BLEUスコアを計算するための候補データと参照データが含まれています。候補と参照データの100行のデータは私にとってPythonでBLEUを実装するのに問題ありません。ありがとう!

    0

    1答えて

    私はseq2seqモデルを1Mサンプルでトレーニングし、最新のチェックポイントを保存しました。今、私は、以前の訓練データには見られなかった50K文ペアの追加の訓練データをいくつか持っています。トレーニングを最初から開始することなく、この新しいデータに現在のモデルをどのように適応させることができますか?

    0

    1答えて

    私はIBM Watson言語変換のトレーニング・データとして使用する記事を翻訳しています。これらの記事をトレーニングに使用する正しい方法は何ですか?記事全体とその翻訳をパラレルコーパスのエントリとして使用しているのですか?記事を複数の文に分割し、その翻訳ペアをエントリとして持つ必要がありますか?

    0

    1答えて

    私は、BLEU、NIST、METEORなどのような多くの異なる方法があることを知っています。それらはすべて長所と短所があり、その有効性はコーパスとは異なります。私はリアルタイム翻訳に興味があるので、一度に2つの文章を入力して即座に翻訳することで、2人が会話することができました。 これはどのようなコーパスですか?テキストは、ほとんどの従来の方法による適切な評価のためには短すぎると考えられるか?話し手

    -1

    1答えて

    私は、Microsoft Translator HubのカスタムMicrosoft MTエンジンのトレーニングに使用したいTMX形式の大きな並列コーパスを持っています。次に、この訓練されたMTエンジンをAzureに導入し、クラウドベースのCATツールで使用したいと考えています。 これを行う方法については、ステップバイステップガイドはありますか?

    0

    1答えて

    Google翻訳ウェブツールを使用すると、翻訳された結果が短いフレーズに分解され、フレーズごとに別の翻訳が提供されます。 Translate API Referenceを読むと、APIを使用すると1つの翻訳しか得られないように見えます。私は多くの代替翻訳情報が必要です。私はこれを行うことができる方法はありますか?私はAPIを支払うつもりです、私はちょうどこの機能が必要です。