1
私はnグラムの文比較/生成スクリプトを書くことに取り組んでいます。このモデルは、短い文章に重点を置いています。N-gramセンテンスジェネレータに短い文章を好まないように、どのように重み付けする必要がありますか?
私はnグラムの文比較/生成スクリプトを書くことに取り組んでいます。このモデルは、短い文章に重点を置いています。N-gramセンテンスジェネレータに短い文章を好まないように、どのように重み付けする必要がありますか?
あなたは、各nグラムのスコアを計算し、これらのスコアでngramsをランク付けすると仮定すると、あなたがn
の各値に対して異なるスカラー重みを適用することにより、これらのngramsのスコアを調整することができますが、例えば、v = <0.1, 0.2, 0.5, 0.9, 1.0>
、どこv[0]
は、nグラムに適用され、n == 1
となります。このようなベクトルは、一組の代表的な解nグラムの相対頻度を測定することによって、より大きいテキストコーパスから決定することができる(例えば、文を探しているならば、文ごとにn
を計算し、各値の頻度を数える。n
そのデータからprobability distributionを作成する
おそらく、モデルには文章の終わりが含まれている可能性があります。重みを減らすか、長い文章のコピーをトレーニングデータに追加してください –
" "? –
@DonRebaごめんなさい、誤って編集中にそれを残してはいけません。 –