目に見えないデータにLSTMを適用する前に考慮すべきこと

私は分類器を訓練したいと思うテキストデータをいくつか持っていました。私はテキストデータをトークン化し、ベクトル化して、 'The quick brown fox ...'のような読みやすいテキストを[1,0,0,25、...]などのパディングシーケンスに変換しました。目に見えないデータにLSTMを適用する前に考慮すべきこと

Aモデルはうまく訓練されています。今、このモデルを目に見えないテキストデータ（列車やテストセットの一部ではない）に適用する必要があります。

私は最初、訓練された/テスト済みのデータにはない目に見えないデータからすべての単語を削除することを検討していました。しかし、これも解決策のようには見えません。目に見えないテキストデータをトークン化すると、訓練されたデータに存在する単語は、見えないデータの新しい数字にマッピングされる可能性があります。だから、訓練されたデータで

狐が見えないデータで20
キツネにマッピングすることができる

は70

私の質問にマッピングすることができ、その後、次のとおりです。どのようにして適用することができます新しいデータのLSTMモデル？

出典

2017-11-05 info_seekeR

個人的には、目に見えないデータに新しい番号が付くようなソリューションは気に入らないのです。

は電車やテストデータセットからすべての単語のトークナイザをフィット：それはあなたのモデル...

を混同するので私は2つのソリューションを参照してください。これらのファイルを結合するだけでトークン化ができます。
あなたのトークナイザをフィッティングするために大きなテキストデータセット（f.e. Wikipedia）を使用してください。その場合、すべての単語を持つ可能性が最も高いです。

出典

2017-11-05 09:03:22 Paddy

ご協力いただきありがとうございます。私は2番目の解決策が働くと思います。しかし、第1の問題は解決されていないようです。私の問題は目に見えないデータ（訓練の時点では収集/使用できない）で起こるためです。だから私は列車とテストセットにトークナイザーを持っていますが、目に見えないセットに基づいていません。とにかく、各単語が同じ番号にマップされるようにするにはどうしますか？ –

もちろん、すべてのトークナイザには辞書があり、あなたはその単語をキー（数字）でチェックすることができます。 F.i. vocabulary_メソッドを使用すると、すべての単語番号のペアにアクセスできます。より多くのことを助けるために、使用しているトークナイザを知っておく必要があります。属性があるケラスの場合 – Paddy

、下を確認してください：https://keras.io/preprocessing/text/ – Paddy

目に見えないデータにLSTMを適用する前に考慮すべきこと

答えて

関連する問題