私はLSTMとtensorflowの翻訳モデルを使用して会話エージェントを訓練しています。バッチ式のトレーニングを使用して、各エポックスタート後のトレーニングデータのパープレキシティが大幅に低下します。この低下は、トレーニングデータのすべてのトレーニングペアが1エポックごとに正確に処理されることを保証するため、データをバッチに読み込む方法で説明できます。新しいエポックが始まると、以前のエポックでモデルによって行われた改善は、グラフのドロップとして表現されたトレーニングデータにもう一度遭遇すると、その利益を示します。テンソルフローの変換モデルで使用されるような他のバッチ式アプローチでは、トレーニングデータ全体をメモリにロードし、サンプルをランダムに選択する方法と同じ動作にはなりません。Perplexityの計算は、それぞれの有意な低下の間に起きます。
ステップ、困惑
- 330000、19.36
- 340000、19.20
- 350000、17.79
- 360000、17.79
- 37万、17.93
- 380000、 17.98
- 390000、18.05
- 400000、18.10
- 410000、18.14
- 420000、18.07
- 430000、16.48
- 440000、16.75
(示すパープレキシティより小さなスニップ350000と430000での低下。滴の間に、混乱はわずかに上昇している)
しかし、私の質問は、ドロップ後の傾向に関するものです。このグラフから、混乱が次の低下までわずかに上昇していることが明らかである(ステップ〜350000後の各エポック毎に)。誰かがなぜこれが起こっているのかの答えや理論を与えることができますか?