2017-08-15 9 views
0

私は600kの記事+要約の訓練コーパス上の抽象的な要約のための注意モデルでtextsum seq2seqを訓練しました。これはコンバージェンスと見なすことができますか?もしそうなら、5kステップ以下ということで収束したのは間違いないでしょうか?留意事項:私は4のバッチサイズで(約収束するまで)20万の このテキストの損失曲線をどのように解釈するのですか?

  • 5Kステップの単語サイズに訓練してきた

    • は最大で20Kの異なるサンプルが見られたことを意味します。これはトレーニングコーパス全体のほんの一部です。

    私は実際に茶の葉で私の犬の顔を読んでいませんか、または期待どおりのマイナスの坂ですか?

    Loss over steps

  • +1

    モデルは明らかにまだ学習しています。それを見るためにもっと滑らかにしてください。しかし明らかに5k後には6.2前後でしたが、現在は約5.8です。 – lejlot

    +0

    コンバージェンス時のrunning_avg_lossのベンチマークがどのようなものかはわかりません。私はテキストの著者と同じハイパーパラメータを使用しましたが、私の出力はこれまで役に立たなかったです。いいえ、私はこれがモデルに導入されたバグか、あまりにも辛抱強すぎるのか、モデルトレインをたくさんのものにするべきかどうか、別のデータセット(GigawordではなくNYT)を使って私と何か関係があるかどうかを評価しています*より長い(または、GPUを取得する これは、CPUのatmでこれは非常に遅いと思われる) – anthnyprschka

    答えて

    0

    [OK]をので、私は実際に(代わりにCPUの)GPU上でのトレーニングに切り替えやモデルはまだ学んでいたことを証明しました。 enter image description here

    AWS p2.xlarge NVIDIA K80を使用した場合、スピードアップは約30倍になりました。

    関連する問題