このテキストの損失曲線をどのように解釈するのですか？

私は600kの記事+要約の訓練コーパス上の抽象的な要約のための注意モデルでtextsum seq2seqを訓練しました。これはコンバージェンスと見なすことができますか？もしそうなら、5kステップ以下ということで収束したのは間違いないでしょうか？留意事項：私は4のバッチサイズで（約収束するまで）20万のこのテキストの損失曲線をどのように解釈するのですか？

5Kステップの単語サイズに訓練してきた

は最大で20Kの異なるサンプルが見られたことを意味します。これはトレーニングコーパス全体のほんの一部です。

私は実際に茶の葉で私の犬の顔を読んでいませんか、または期待どおりのマイナスの坂ですか？

出典

2017-08-15 anthnyprschka

モデルは明らかにまだ学習しています。それを見るためにもっと滑らかにしてください。しかし明らかに5k後には6.2前後でしたが、現在は約5.8です。 – lejlot

コンバージェンス時のrunning_avg_lossのベンチマークがどのようなものかはわかりません。私はテキストの著者と同じハイパーパラメータを使用しましたが、私の出力はこれまで役に立たなかったです。いいえ、私はこれがモデルに導入されたバグか、あまりにも辛抱強すぎるのか、モデルトレインをたくさんのものにするべきかどうか、別のデータセット（GigawordではなくNYT）を使って私と何か関係があるかどうかを評価しています*より長い（または、GPUを取得するこれは、CPUのatmでこれは非常に遅いと思われる） – anthnyprschka

[OK]をので、私は実際に（代わりにCPUの）GPU上でのトレーニングに切り替えやモデルはまだ学んでいたことを証明しました。

AWS p2.xlarge NVIDIA K80を使用した場合、スピードアップは約30倍になりました。

出典

2017-09-11 09:49:15 anthnyprschka

このテキストの損失曲線をどのように解釈するのですか？

答えて

関連する問題