0
私は600kの記事+要約の訓練コーパス上の抽象的な要約のための注意モデルでtextsum seq2seqを訓練しました。これはコンバージェンスと見なすことができますか?もしそうなら、5kステップ以下ということで収束したのは間違いないでしょうか?留意事項:私は4のバッチサイズで(約収束するまで)20万の このテキストの損失曲線をどのように解釈するのですか?
- は最大で20Kの異なるサンプルが見られたことを意味します。これはトレーニングコーパス全体のほんの一部です。
私は実際に茶の葉で私の犬の顔を読んでいませんか、または期待どおりのマイナスの坂ですか?
モデルは明らかにまだ学習しています。それを見るためにもっと滑らかにしてください。しかし明らかに5k後には6.2前後でしたが、現在は約5.8です。 – lejlot
コンバージェンス時のrunning_avg_lossのベンチマークがどのようなものかはわかりません。私はテキストの著者と同じハイパーパラメータを使用しましたが、私の出力はこれまで役に立たなかったです。いいえ、私はこれがモデルに導入されたバグか、あまりにも辛抱強すぎるのか、モデルトレインをたくさんのものにするべきかどうか、別のデータセット(GigawordではなくNYT)を使って私と何か関係があるかどうかを評価しています*より長い(または、GPUを取得する これは、CPUのatmでこれは非常に遅いと思われる) – anthnyprschka