N-gramセンテンスジェネレータに短い文章を好まないように、どのように重み付けする必要がありますか？

私はnグラムの文比較/生成スクリプトを書くことに取り組んでいます。このモデルは、短い文章に重点を置いています。N-gramセンテンスジェネレータに短い文章を好まないように、どのように重み付けする必要がありますか？

2011-12-20 Seth Archer Brown

おそらく、モデルには文章の終わりが含まれている可能性があります。重みを減らすか、長い文章のコピーをトレーニングデータに追加してください –

" "？ –

@DonRebaごめんなさい、誤って編集中にそれを残してはいけません。 –

あなたは、各nグラムのスコアを計算し、これらのスコアでngramsをランク付けすると仮定すると、あなたがnの各値に対して異なるスカラー重みを適用することにより、これらのngramsのスコアを調整することができますが、例えば、v = <0.1, 0.2, 0.5, 0.9, 1.0>、どこv[0]は、nグラムに適用され、n == 1となります。このようなベクトルは、一組の代表的な解nグラムの相対頻度を測定することによって、より大きいテキストコーパスから決定することができる（例えば、文を探しているならば、文ごとにnを計算し、各値の頻度を数える。nそのデータからprobability distributionを作成する

出典

2012-02-27 05:14:05 Chris

N-gramセンテンスジェネレータに短い文章を好まないように、どのように重み付けする必要がありますか？

答えて

関連する問題