ディレクトリに格納されたドキュメントを検索する機能を追加したいとします。バックエンドはPythonで開発され、検索結果をさらに操作します。ドキュメントは専用のWebサーバーに保存されます。(フォーマットされた)10000の文書をPythonで扱うための最適なテキストインデクサー
確立された技術(Lucene、Xapian、Whoosh)は成熟したPythonバインディングを持っています。私の同僚は、クライアントのためにApache、Lucene、PHPをセットアップしました。 I は、Pythonで書かれているため、Whooshを選択しますが、パフォーマンスが低く、「機能X」がないことのレビューで怖いです。
私の特定の要件は、次のとおりです。
サポートは、(私の爪をかむなります)
-
もPythonのでサポート
- 主要なホストの技術サポートは、簡単に
- スケールを、それを設定することができますうまく100000文書まで
- 4つの新しいファイルのインデックスを更新すると、私たちの専用サーバーが遅くなりません の
特長(私はここで初心者くさいよ)
- 私は自分自身
- で操作できる形式のデータが強調表示されたテキストを返すことができるリターンは特定のファイルのために
- 高い優先順位をスニペットとタイトルまたは太字の単語