2017-02-02 10 views
2

画像を分類できる分類器を作成します。私はこれに畳み込みニューラルネットワークを使うべきであることを知っています。事はすべてのイメージのために私はdiscriptionを持っているということです。この説明を使用して分類子を改善する方法はありますか?詳細な学習 - 画像とその説明の両方を使用

答えて

1

最も簡単なことは、画像機能(CNN)とテキスト機能(LSTM言語モデル、単語のバックワード、またはskip-thoughtベクターのような既製のエンコーダの形式)を使用して、通常の方法で画像クラスに関する予測を行うことができます。 2つの特徴は、連結、要素ごとの乗算、要素ごとの和または外積によって結合することができる。視覚的な質問応答(VQA)の最近の進歩を見てみましょう.VQAでできることのサブセットのようなものです。

0

確かにニューラルネットワークはhttps://arxiv.org/pdf/1609.08144v2.pdfのようにテキストで使用されています。あなたは文章ではなくクラスを出力したいだけなので、もっと簡単な時間を持っています。クラシファイアを組み合わせるには、出力に加重ランクの合計を使用できます。

クラシファイアがどのくらい改善するかは非常に面白く、出版の基礎となる可能性があります。

関連する問題