2011-12-20 6 views
1

私はnグラムの文比較/生成スクリプトを書くことに取り組んでいます。このモデルは、短い文章に重点を置いています。N-gramセンテンスジェネレータに短い文章を好まないように、どのように重み付けする必要がありますか?

+1

おそらく、モデルには文章の終わりが含まれている可能性があります。重みを減らすか、長い文章のコピーをトレーニングデータに追加してください –

+0

" "? –

+0

@DonRebaごめんなさい、誤って編集中にそれを残してはいけません。 –

答えて

2

あなたは、各nグラムのスコアを計算し、これらのスコアでngramsをランク付けすると仮定すると、あなたがnの各値に対して異なるスカラー重みを適用することにより、これらのngramsのスコアを調整することができますが、例えば、v = <0.1, 0.2, 0.5, 0.9, 1.0>、どこv[0]は、nグラムに適用され、n == 1となります。このようなベクトルは、一組の代表的な解nグラムの相対頻度を測定することによって、より大きいテキストコーパスから決定することができる(例えば、文を探しているならば、文ごとにnを計算し、各値の頻度を数える。nそのデータからprobability distributionを作成する

関連する問題