0

私は30エポックの訓練されたテンソルフローseq2seqモデルを持っており、各エポックのチェックポイントを保存しました。私が今やってみたいのは、(開発セットの結果に基づいて)これらのチェックポイントの最高のXを組み合わせることです。具体的には、異なるモデルの重みを平均化し、それらをデコードに使用できる新しいモデルにマージする方法を探しています。しかし、このために設定された方法はないようで、異なるモデルを読み込むことはややこしいことがあります。しかし、これが成功したとしても、新しいモデルでどのようにウェイトを組み合わせるかについて、良い答えは見つけられません。シーケンスからシーケンスへのアンサンブルの作成(seq2seq)テンソルフローモデル?

ご協力いただければ幸いです。 (十分に私の意見で答えていません)

関連質問:新しいものを生産するためにいくつかのモデルの重みの平均を行う

Building multiple models in the same graph

How to load several identical models from save files into one session in Tensorflow

How to create ensemble in tensorflow?

+0

異なるモデルの重みを平均する理由を説明できますか? – saeta

+0

私は最高のXモデルのアンサンブルを作成したいと思います。だから、最良のモデルを選ぶのではなく、最高のXモデルを平均したいと思っています。これは機械翻訳のタスクの最終結果を増加させるようです。これを行うための最も論理的な方法は、モデルの重み付けを平均化することです。 – RNRug

答えて

0

有用な結果を生み出すことはまずありません。

簡単な例として、AlexNetのような古典的なCNNについて考えてみましょう。最初のレイヤーには、さまざまな画像機能を探している一連の2次元フィルタが含まれています。似た機能がフィルタに表示される可能性がありますが、発生する順序は非常に異なるため、重みを平均するだけでほとんどの情報が破壊されます。

関連する問題