テンソルフローseq2seq_model.pyモデルで実験しています。TensorFlow target_vocab_sizeの数が少ないseq2seqモデル
512未満の語彙については、それだけで標準のソフトマックス損失を使用するために良いアイデアかもしれません。私が持っている ターゲット単語のサイズは約200
documentationインクルードは言うです。
if num_samples > 0 and num_samples < self.target_vocab_size:
のみ200目標出力語彙でモデルを実行if文を呼び出しません。
は、ソースコードもチェックしています。
良い標準トレーニングを確実にするために「標準」ソフトマックスロス機能を記述する必要がありますか、それともモデルをそのまま実行させることはできますか?
ありがとうございました!
モデルとの経験を共有してくれてありがとう! seq2seq_model.pyでは、tf.train.GradientDescentOptimizerをtf.train.AdagradOptimizerに置き換えましたか?あるいは、次のループで、xrangeのb(len(buckets))のために何かを適応させる必要がありますか? – Max
ただそこに置き換えてください。それ以降のforループは、この目的のために編集する必要はありません。 – friesel