0

私はtiff(タグ画像ファイル形式)またはpdfファイルをmongodbに保存する必要があります。これはText検索が可能です。私たちが "テキストのベース"を検索したい場合、それは検索できるはずです。スキャンした(pdf、tiff、jpeg)ファイルをMongoDBに保存します。

mongodbで.net mvcまたはjavaを使用します。

このpdfファイルを保存してからデータベースから取得するにはどうすればよいですか。

いずれかの提案をいただければ幸いです。私はそれがサーバからファイルを読み取るために、より効率的だ 、サーバーおよびファイルのパスとのMongoDBの内部ファイルから文字列のファイルシステム上のファイルを保存する必要があることだと思う

おかげ

答えて

2

this questionに記載されているようにMongoDb GridFsを使用してファイルを保存し、this questionで説明した機能を使用してPDFファイルからテキストを抽出することができます。 ;)。

HTH

0

MongoDBからファイルシステムをロードします。

ファイルをバイナリデータとして保存することもできますが、ファイル内を検索することはできません。

+0

大丈夫です。私が上記の最初の方法に従えば、私はファイルを検索することができますか?主な目的はファイルを検索することです。 –

+0

これがテキストのpdfである場合は、すべてのテキストを抽出してseperatly、tiff、imagesをOCRで処理し、seperatlyで処理して検索クエリを作成するすべてのテキストを抽出する必要があります。 –