ここに問題があります - 私は数千の小さなテキストスニペットをいくつかの単語からいくつかの文章まで持っています - 最大のスニペットはディスク上に約2kです。私はそれぞれをそれぞれ比較することができ、ユーザーに関連する情報を表示できるように関連性係数を計算したいと考えています。2つの本文の「関連性」を見出す良い方法は何ですか?
これを行うにはどうすればよいですか?これを行うための既知のアルゴリズムはありますか?いいえ、GPLのソリューションなどありますか?
すべてを事前に計算できるので、これをリアルタイムで実行する必要はありません。私はランタイムより良い結果を得ることにもっと関心があります。
私はちょうど私が自分のことに行く前に、スタックオーバーフローのコミュニティに尋ねると思った。これまでに良い解決策を見つけた人々がそこにいなければなりません。
非常に未定義の質問です。どのような基準で、2つのテキストがお互いに関連していると考えますか?一般的なトピックですか?繰り返されるフレーズ?長さ?複雑?手紙の頻度? –