2017-11-05 6 views
1

私は分類器を訓練したいと思うテキストデータをいくつか持っていました。 私はテキストデータをトークン化し、ベクトル化して、 'The quick brown fox ...'のような読みやすいテキストを[1,0,0,25、...]などのパディングシーケンスに変換しました。目に見えないデータにLSTMを適用する前に考慮すべきこと

Aモデルはうまく訓練されています。今、このモデルを目に見えないテキストデータ(列車やテストセットの一部ではない)に適用する必要があります。

私は最初、訓練された/テスト済みのデータにはない目に見えないデータからすべての単語を削除することを検討していました。しかし、これも解決策のようには見えません。目に見えないテキストデータをトークン化すると、訓練されたデータに存在する単語は、見えないデータの新しい数字にマッピングされる可能性があります。だから、訓練されたデータで

  • 狐が見えないデータで20
  • キツネにマッピングすることができる

    は70

私の質問にマッピングすることができ、その後、次のとおりです。どのようにして適用することができます新しいデータのLSTMモデル?

答えて

2

個人的には、目に見えないデータに新しい番号が付くようなソリューションは気に入らないのです。

  • は電車やテストデータセットからすべての単語のトークナイザをフィット:それはあなたのモデル...

    を混同するので私は2つのソリューションを参照してください。これらのファイルを結合するだけでトークン化ができます。

  • あなたのトークナイザをフィッティングするために大きなテキストデータセット(f.e. Wikipedia)を使用してください。その場合、すべての単語を持つ可能性が最も高いです。
+0

ご協力いただきありがとうございます。私は2番目の解決策が働くと思います。しかし、第1の問題は解決されていないようです。私の問題は目に見えないデータ(訓練の時点では収集/使用できない)で起こるためです。だから私は列車とテストセットにトークナイザーを持っていますが、目に見えないセットに基づいていません。とにかく、各単語が同じ番号にマップされるようにするにはどうしますか? –

+1

もちろん、すべてのトークナイザには辞書があり、あなたはその単語をキー(数字)でチェックすることができます。 F.i. vocabulary_メソッドを使用すると、すべての単語番号のペアにアクセスできます。 より多くのことを助けるために、使用しているトークナイザを知っておく必要があります。属性があるケラスの場合 – Paddy

+1

、下を確認してください:https://keras.io/preprocessing/text/ – Paddy

関連する問題