私はskip-gramを使ってword2vecのフォワードとバックプロパゲーションを実装しようとしています。 Iニューラルネットワークに新しいですが、私の理解から、これはそれが行く方法です:負のサンプリングでword2vecを実装しています
- は
- ランダムに初期化された重みの入力ベクトルと行列の内積を取るアクティブ(?シグモイドまたはソフトマックス)
- (私たちは、何とか我々はステップ4の後に取得した出力を比較し、誤差の導関数を計算するアクティブに隠れ層の内積と、ランダムに初期化された重みの別の行列
- アクティブ(シグモイドまたはソフトマックス?)
- を取るターゲット-output)を計算します。現在の重みから導関数を減算します。出力非表示レイヤーと隠れ入力レイヤーの両方でこれを行います。私たちは十分になるまでこれを何度もやります。
上記のいずれかが間違っていたら私を修正してください。
は、だから今、私の質問は以下のとおりです。
正しいスキップグラム、および負のサンプルの両方の対象とすべきか?それらはそれぞれ1と0ですか?スキップグラムの文脈であるべきか?私は本当にわからない。
損失をどのように計算する必要がありますか?
ありがとうございます。
そしてまた、このhttps://iksinc.wordpress.com/のためにとてもとてもとても役立ちましたページ2/ –