ドキュメントストレージサービスのサイトをリファクタリングして、独自のストレージシステムからSQLに移行しています。すべてがかなりうまくいっていますが、私はリポジトリを通して特定の文字列を検索する方法を見つける必要があります。さまざまな種類のファイル(.xls、.xlsx、.doc、.txtなど)を使用しています。 PDFSharpを使用して行単位で再構築することで、最初にPDFに変換してユーザーに表示します。何千ものファイルをテキストから効率的にリアルタイムで検索する方法
単一のファイルの表示/検索では速度は考慮されませんが、スケーラビリティについて懸念があります。コピーしてから変換プロセスにフックすることで、機能するテキスト検索を行うことができましたが、顧客のドキュメントリスト全体(数千と数千ものドキュメント)を検索することはできません。これらがすべて統一されたファイルタイプの場合は、実行する方が簡単かもしれませんが、そうではありません。
これを行う効率的な方法はありますか?
編集:文書は、DB
SQL Serverのフルテキスト検索機能についてご存知ですか?あなたはそれらを試しましたか? – TomTom
私はそうではありません。私はフルテキスト検索を調べましたが、私たちのファイルはテキストファイルとして保存されていないので、SQLサーバーがファイルを索引付けできるかどうかはわかりません(最初に変換する必要があります)。 これはまったく無知な点ですが、フルテキストインデックス作成では、テキスト全体をデータベースに保存する必要はありませんか?そして、私はそのページ番号をどのように取得するのですか? –
あなたの質問は私には分かりません。独自の形式のファイルがありますが、それは何ですか?それらを「リアルタイム」でSQLにインポートする必要がありますか?私はこれを必要とするシナリオを想像することはできませんので、私はあなたの必要性を誤解している必要があります。 –