手のジェスチャを分類するために畳み込みニューラルネットワーク(CNN)モデルを実装しようとしています。データセットは容易に入手できないため、私はそれを準備する必要があります。畳み込みニューラルネットワークのデータセットを準備する
データセットはどのように準備する必要がありますか?キャプチャした画像には、手以外のオブジェクトや手のみのオブジェクトが含まれている必要がありますか?フレーム内の背景や他のオブジェクトにもかかわらず、正確に動作する正確なモデルが得られますか?あなたの問題のため
手のジェスチャを分類するために畳み込みニューラルネットワーク(CNN)モデルを実装しようとしています。データセットは容易に入手できないため、私はそれを準備する必要があります。畳み込みニューラルネットワークのデータセットを準備する
データセットはどのように準備する必要がありますか?キャプチャした画像には、手以外のオブジェクトや手のみのオブジェクトが含まれている必要がありますか?フレーム内の背景や他のオブジェクトにもかかわらず、正確に動作する正確なモデルが得られますか?あなたの問題のため
良いデータセット:
あなたは、バックグラウンドでさまざまな背景やオブジェクトを含む検討すべきです。
以下のリンクはあなたを助けるかもしれない:
https://blog.keras.io/building-powerful-image-classification-models-using-very-little-data.html
ここは一例です: http://cims.nyu.edu/~tompson/NYU_Hand_Pose_Dataset.htm
それはちょうどあなたが何かを実装する必要が意味するであろう他の画像を含みますあなたのパイプラインは手を隔離する。私は画像の中だけに手を持つことをお勧めしますので、すぐに画像上でモデリングを始めることができます。
この領域には、複数の解像度のCNNを使用する多数のcnnアーキテクチャがあります。あなたのデータ準備では、複数の解像度を作り、複数の入力CNNにフィードするだけです。 Keras関数APIを使用してこれを行うことができます。低解像度画像はある種の非常に異なるポーズを区別するのに適しており、高解像度は小さな違いに焦点を当てることができます。明らかに、標準的なデータ増強は、手の姿勢に適したものではない。ミラーリングや角度を変更するなどの作業は、指定したラベルにデータが不適切なものになる可能性があります。それほど多くない場合は、データの補強に少し慎重にしてください。