2016-09-07 15 views
0

アップロードされたファイルのインデックスを作成し、その中のテキストを検索することです。MediaWiki - アップロードされたファイルのテキストを検索

現在の設定:

  • MediaWikiの1.27
  • のPostgreSQL 9.4
  • Elasticsearch 1.7.5
  • MW-拡張CirrusSearch 1.27
  • MW-拡張エラスティカ(マスター)

wiki-pagesとup-forでElasticsearchによる検索読み込まれたファイルが動作しています。しかし、アップロードしたファイル(pdf、doc、...)内のテキストを索引付けして検索するにはどうすればよいですか?

答えて

0

テキストを抽出できるメディアハンドラが必要です。 MediaHandler::getEntireTextを参照してください。 PDFの場合はPdfHandlerです。他の一般的なフォーマットの拡張も存在すると思います。

0

私はこれをpluginと使いました。あまりにも多くのスペースを使用しているという1つの欠点は、私のプロジェクトの後半で、マッパープラグインが使用するtika(.netポートバージョン)を使用するように移行したことです。

関連する問題