ディスカッションフォーラムデータベースでフルテキスト検索を実装しましたが、私はGoogleが行うように検索結果を と表示したいと思います。非常に長いhtmlページであっても、検索結果リストに表示されているテキストの行数は2つまたは3つだけです( )。通常、これらは、検索用語を含む の行です。全文検索結果から小さな関連ビットテキスト(Googleと同じ)を抽出する
テキスト自体と検索語句に基づいてテキストの数行を抽出する方法の良いアルゴリズムは何でしょうか。私はテキストと行の中で検索語句が出現する前に1行のテキストを使うのと同じくらい簡単なことを考えることができますが、それは働くには単純すぎるようです。
いくつかの方向性、アイデア、洞察力を得たいですか?
ありがとうございます。
自然言語処理(nlp)タグが追加されました。 –