詳細な学習 - 画像とその説明の両方を使用

画像を分類できる分類器を作成します。私はこれに畳み込みニューラルネットワークを使うべきであることを知っています。事はすべてのイメージのために私はdiscriptionを持っているということです。この説明を使用して分類子を改善する方法はありますか？詳細な学習 - 画像とその説明の両方を使用

出典

2017-02-02 jefferyk

最も簡単なことは、画像機能（CNN）とテキスト機能（LSTM言語モデル、単語のバックワード、またはskip-thoughtベクターのような既製のエンコーダの形式）を使用して、通常の方法で画像クラスに関する予測を行うことができます。 2つの特徴は、連結、要素ごとの乗算、要素ごとの和または外積によって結合することができる。視覚的な質問応答（VQA）の最近の進歩を見てみましょう.VQAでできることのサブセットのようなものです。

出典

2017-02-02 16:49:42 Prophecies

確かにニューラルネットワークはhttps://arxiv.org/pdf/1609.08144v2.pdfのようにテキストで使用されています。あなたは文章ではなくクラスを出力したいだけなので、もっと簡単な時間を持っています。クラシファイアを組み合わせるには、出力に加重ランクの合計を使用できます。

クラシファイアがどのくらい改善するかは非常に面白く、出版の基礎となる可能性があります。

出典

2017-02-02 13:32:23

詳細な学習 - 画像とその説明の両方を使用

答えて

関連する問題