私はkerasを使って非常に大きなテキストデータセットにニューラルネットを作成しています。モデルを構築し、すべてが機能していることを確認するために、私はデータの一部をメモリに読み込み、ケラス 'Tokenizer'を使って、各単語をトークンにマッピングするなど、必要な前処理を行います。次に、model.fit()を使用します。Keras:テキストデータにfit_generator()を付けたTokenizer
ここでは、完全なデータセットに拡張し、すべてのデータをメモリに読み込むためのスペースがないようにしたいと考えています。ですから、ディスクから順にデータを読み込み、model.fit_generator()を使うジェネレータ関数を作りたいと思います。しかし、これを行うと、Tokenizerオブジェクトをデータの各バッチに個別に収め、各バッチごとに異なる単語とトークンのマッピングを提供します。とにかくこれの周りにはありますか?ケラスを使ってトークン辞書を構築する方法はありますか?
1):あなたが1から発電機を持っていたら、あなたは、単にで
tokenizer.fit_on_text
方法を適用することができるmodel.fit_generator
に使用します。 2)前処理タスクを分離し、ハードドライブ上にマッピングオブジェクトを保存し、バッチの生成でトランスフォームを実行するのはなぜですか? –