2016-10-12 8 views
0

msword/pdfファイルの内容を検索してテキストフレーズを検索し、一致するドキュメントを返すことが必要です。私は10000以上の文書を持っています。テキストフレーズを検索してリターンするために、すべてのドキュメントを読む方が速いのはどちらですか? word/pdfの内容をMySQLのテーブルやテキストファイルに保存していますか?phpで単語またはpdfファイルのテキストフレーズを検索

msword/pdfのドキュメントコンテンツをMySQLデータベースに保存するにはどうすればよいですか? MySQLのテーブルでは、どのデータ型が最適ですか?

答えて

0

私はすべてをwordまたはpdf形式にしていますが、PHPでドキュメントを検索する代わりに、ドキュメントを検索してPHPから呼び出し、一致するドキュメントをPHPに返すPythonスクリプトを作成します。 Pythonはそのようなものの方がはるかに高速です。

データベースにドキュメントの内容がある場合、mysql検索も高速ですが、コンテンツの長さにはいくつかの制限があります(制限についてはhereもいくつかの情報です)。また、すべてのドキュメントを読み込んで保存する必要がありますデータベースに転送します。私はあなたがそれらを検索するためにPythonスクリプトを作成するために多くの時間を節約すると思います。ここで

EDITは、いくつかのパフォーマンステスト(2016)です。 PHP 7を使用している場合、実際には最も高速です。またthis記事をご確認=>「Pythonのは、さらに大量のデータを処理するために必要とされる科学的なアプリケーションとアプリケーションを開発するための最良のプログラミング言語であると考えられている。」 https://blog.famzah.net/2016/02/09/cpp-vs-python-vs-perl-vs-php-performance-benchmark-2016/

+0

なぜpythonはPHPより高速ですか? – Swarne27

+0

私の編集をチェックしてください。私はあなたに多くの情報を与えた。 Pythonは、機械学習で使用され、膨大な量のデータを処理するのに最適です。私はPHP7についてはわかりませんが、彼らはもっとうまくいったようです。 – Silko

+0

私はこれを行うためにコーディング言語を変更したくない – Swarne27

関連する問題