現在、私と私の3人の友人が、その特定の画像内のオブジェクトに基づいて画像記述を生成するプロジェクトに取り組んでいます(画像がシステムに与えられると、オブジェクトとそれらの間の関係に基づいて生成される)。したがって、単純に1人の人間がイメージ内のオブジェクトを特定し、ファストリージョナルベースのCNN(FRCNN)を使用してそれらにラベルを付けることを計画しています。私は、これらのイメージラベルに基づいて意味のある説明を実装する必要があります(FRCNNの出力は、自分のRNNへの入力として使用する予定です)。画像ラベルに基づいて意味のある画像記述を生成する
現在、私は説明を生成するためにリカレントニューラルネットワーク(RNN)を実装する予定です。しかし、私はそれが単なる単語のセット(画像ラベル名)を入力として与えられたときにRNNを使用して記述を生成することが可能であるかどうかは疑いがない。 RNNは主にシーケンスを持つユースケースで使用されるため、ラベル名を付けるだけで、それらの関係を考慮して記述を生成できますか?
これを実装する最良の方法は何ですか?
PS:私は機械学習には新しく、より良いソリューションになるという明確なアイデアを得ることを願っています。
便利だと思ういくつかの材料を共有する、あなたはそれについてのアート紙の状態のいずれかを読んで持っていますか? –
ええ私はいくつかの研究論文を読んでいます。私の注目を集めているのはAndrej Karpathyの「画像記述を生成するための深視覚的セマンティックアライメント」に関する研究です。しかし、私が持っている問題は、RNNがラベル名だけに基づいて記述を生成できるかどうかです。多くの研究論文では、CNNを使用してフィーチャを抽出し、訓練された言語モデルを備えたそのフィーチャセット(最後の隠れ層)を、共通の埋め込みモーダルに埋め込んで記述を生成する。 –
問題FRNNの最後の隠れたレイヤの出力を自分のRNNに与えることができません。なぜなら、FRCNNを実装している人は、特定されたオブジェクトをユーザに出力する必要があるからです。私がCNNを使って知っているように、特定されたオブジェクトは、CNNの最終層を通じてのみ獲得することができます。したがって、CNNの最後のレイヤーを削除すると、その人物は識別されたオブジェクトを出力できません。私は正しいですか? –