私はコーパスがあり、文字から始まる単語の埋め込みを見つけたいと思います。ですから、私は一連の文字を入力として持っていて、多次元空間に投影したいのです。既に学習された単語埋め込みを使用して文字から単語埋め込みを学習する
初期設定として、すでに学習した単語の埋め込み(たとえば、Googleの埋め込み)に合わせたいと思います。
私はいくつかの疑問があります。
- を私は入力シーケンスの各入力 文字のベクトルを埋め込む文字を使用する必要がありますか? を単純にasciiまたはutf-8エンコーディングを使用すると問題になりますか? seq2seq、自動:入力 ベクトル定義も何にもかかわらず
- は、いくつかのオプションが、1つは、より良い選択であるイムわからない があり、適切なモデルを選択することが には本当に紛らわしいです(..、VEC、アスキーを埋め込みます)エンコーダ、lstm、 マルチリグレッサ+ lstm?
- ケラスまたはテンソルフローでサンプルコードを教えてください。
返事をいただきありがとうございました。しかし、本当に文字埋め込みが必要なのでしょうか、言い換えれば、なぜこの場合の文字類似性の一般化が必要ですか? –