ドイツのウェブサイトnandoo.netはニュース記事を短縮する可能性があります。スライダを使用してパーセント値を変更すると、テキストが変更され、いくつかの文章が残されます。テキストを短くして重要な文章だけを残す
現在のアクションでそれを見ることができます:
ニュース記事は左側にあり、タグがマークされています。スライダーは2番目の列の上にあります。スライダを左に動かすほどテキストが短くなります。
どのようにそのようなものを提供できますか?それを達成するために使用できるアルゴリズムはありますか?
私の考えは、彼らのアルゴリズムが文中のタグと名詞の数を数えるということでした。次に、タグ/名詞の数が最も少ない文が除外されます。
それは本当ですか?それとも別のアイデアがありますか?
私があなたを助けてくれることを願っています。前もって感謝します!
ありがとうございました!次に、データベース内のすべての単語の出現回数を格納するだけです。それは問題ありません。しかし、なぜベイジアン解析が必要ですか?あなたは、テキストを通過し、単語の頻度を選択し、すべての文に対してそれらを数えることができます。右? – caw
純粋なカウントを使用しないでください。なぜなら、自然に豊富な単語は高い数を持つと予想されますが、カウントが高い*相対*の単語を探しているからです。ベイジアン分析はまさにそのことです。 –
Thx!だから私はデータベースから単語の出現の平均数を選択します。次に、この文章でどの単語が平均よりも頻繁に出現するかを判断します。少なくとも、これらの予想外の頻繁な単語を含む文章を選択します。右? – caw