私は分類器を訓練したいと思うテキストデータをいくつか持っていました。 私はテキストデータをトークン化し、ベクトル化して、 'The quick brown fox ...'のような読みやすいテキストを[1,0,0,25、...]などのパディングシーケンスに変換しました。目に見えないデータにLSTMを適用する前に考慮すべきこと
Aモデルはうまく訓練されています。今、このモデルを目に見えないテキストデータ(列車やテストセットの一部ではない)に適用する必要があります。
私は最初、訓練された/テスト済みのデータにはない目に見えないデータからすべての単語を削除することを検討していました。しかし、これも解決策のようには見えません。目に見えないテキストデータをトークン化すると、訓練されたデータに存在する単語は、見えないデータの新しい数字にマッピングされる可能性があります。だから、訓練されたデータで
- 狐が見えないデータで20
- キツネにマッピングすることができる
は70
私の質問にマッピングすることができ、その後、次のとおりです。どのようにして適用することができます新しいデータのLSTMモデル?
ご協力いただきありがとうございます。私は2番目の解決策が働くと思います。しかし、第1の問題は解決されていないようです。私の問題は目に見えないデータ(訓練の時点では収集/使用できない)で起こるためです。だから私は列車とテストセットにトークナイザーを持っていますが、目に見えないセットに基づいていません。とにかく、各単語が同じ番号にマップされるようにするにはどうしますか? –
もちろん、すべてのトークナイザには辞書があり、あなたはその単語をキー(数字)でチェックすることができます。 F.i. vocabulary_メソッドを使用すると、すべての単語番号のペアにアクセスできます。 より多くのことを助けるために、使用しているトークナイザを知っておく必要があります。属性があるケラスの場合 – Paddy
、下を確認してください:https://keras.io/preprocessing/text/ – Paddy