)これは、多くのPDFファイルを持つクライアントのための投機的な考えです。AlgoliaでPDFファイルを検索する(
Algoliaはよくある質問で、PDFファイルを検索するには、ファイルからテキストを抽出する必要があると言います。これについてどうやって行きますか? CMS経由
- クライアントのアップロードPDF
- CMSは、テキストを抽出
- Algoliaインデックスが抽出され、それが何らかの形だ にいくつかのサービス/プログラムを呼び出します。
私は作業をすると思われるシステムを想定する方法を 元のPDFにリンクされています
クライアントが自動でシステムにする必要はありませんo索引。 これはUbuntuで動作するLaravelのPHPで構築されます。
PDFからテキストを抽出するソフトウェア/サービスはどれですか?また、これをPDFファイルにリンクするために必要な魔法はありますか?
これを処理する可能性のある他の検索サービスについてのご意見もあります。
いいですね。ユーザーが添付ファイルを変更したときに推奨されるアプローチは何ですか?つまり、テキストの塊を含む各文書を更新する必要があります。新しいファイルのチャンクが少ない場合はどうすればよいでしょうか?それからどのチャンクを削除するのか分かりますか? –
ドキュメントを更新しようとするのではなく、単に 'create'、次に' delete'と考えることにします。あなたは別ファイルを使用しているので、ファイルごとに1レコードしか送っていないので、* v1 *で検索する前に 'create'の前に* v1 + v2 *の' create'の後に 'delete'の後に* v2 *。 – Jerska