2016-03-23 5 views
-1

ドキュメントストレージサービスのサイトをリファクタリングして、独自のストレージシステムからSQLに移行しています。すべてがかなりうまくいっていますが、私はリポジトリを通して特定の文字列を検索する方法を見つける必要があります。さまざまな種類のファイル(.xls、.xlsx、.doc、.txtなど)を使用しています。 PDFSharpを使用して行単位で再構築することで、最初にPDFに変換してユーザーに表示します。何千ものファイルをテキストから効率的にリアルタイムで検索する方法

単一のファイルの表示/検索では速度は考慮されませんが、スケーラビリティについて懸念があります。コピーしてから変換プロセスにフックすることで、機能するテキスト検索を行うことができましたが、顧客のドキュメントリスト全体(数千と数千ものドキュメント)を検索することはできません。これらがすべて統一されたファイルタイプの場合は、実行する方が簡単かもしれませんが、そうではありません。

これを行う効率的な方法はありますか?

編集:文書は、DB

+1

SQL Serverのフルテキスト検索機能についてご存知ですか?あなたはそれらを試しましたか? – TomTom

+0

私はそうではありません。私はフルテキスト検索を調べましたが、私たちのファイルはテキストファイルとして保存されていないので、SQLサーバーがファイルを索引付けできるかどうかはわかりません(最初に変換する必要があります)。 これはまったく無知な点ですが、フルテキストインデックス作成では、テキスト全体をデータベースに保存する必要はありませんか?そして、私はそのページ番号をどのように取得するのですか? –

+0

あなたの質問は私には分かりません。独自の形式のファイルがありますが、それは何ですか?それらを「リアルタイム」でSQLにインポートする必要がありますか?私はこれを必要とするシナリオを想像することはできませんので、私はあなたの必要性を誤解している必要があります。 –

答えて

1

私の推薦にサーバーに保存されていると、文書のURLを介して参照されているSQLまたはファイルのいずれかで、インデックスを構築することです。それぞれのファイルで検索可能なすべての検索用語を含むファイルと一致するもの。

+0

どのような用語が関心を持っているかを知るには/リストにあるすべての単語(「the、an、」など)を含めることはできませんか? –

+0

これは私が答えを知ることができないというビジネスルールの問題です。ブラックリスト(これら以外のすべての単語)またはホワイトリスト(これらの単語のみ)は確かに開発の観点からそれを処理する一つの方法です。 –

+0

ありがとう。 –

関連する問題