2011-01-13 4 views
4

ドキュメント(doc、doxc、pdf、html、rtf、odt .....)からテキストを抽出するライブラリが必要です。この目的のために1つのライブラリ(すべてのドキュメントタイプ用)がありますか?PHP、ドキュメント読込ライブラリ

+1

どのようなテキストですか?もう少し詳しくお聞かせください。 –

+3

「彼らをすべて持って来て、暗闇の中でそれらを結びつけるための図書館」はありません。もしあれば、私は支援が不可能だと思う。これらのフォーマットをすべてカバーすると、開発者のグループが狂ってしまうからです。これらのドキュメントフォーマットのいくつかには、まったくまともなライブラリがありません。 –

+1

これらのすべての書式には単一のライブラリはありません。彼らはお互いに大きく異なっており、異なるアーキテクチャを表す異なるバージョンを持っています。私はあなたがそれぞれのフォーマットに最適なソリューションを探すのに最適であると確信しています。 –

答えて

0

Windows以外のシステムでは、これを行うためのライブラリはありません。将来的にはそうなる可能性は非常に高いです。主な理由は、指定した文書フォーマットが時々更新されるということです。

しかし、もしあなたがphpをインストールしていれば、確実にこれらのフォーマットをすべて読み込めるようにactivex拡張を使うことができます。これを得るためには、適切なオフィスアプリケーションをマシンからphp以外にインストールする必要があります働くこれはまた、あなたのオフィスアプリケーションがそれらの文書を読むことができる限り、将来のバージョンの文書があなたのPHPコードで動作し続けることを保証します。 phpライブラリのコレクションで 'php win32'ライブラリを探して、そこに素晴らしいものを見つけてください。

+2

あなたはLinuxを使ったことがありませんでしたか?これは、さまざまなファイル形式のコマンドラインコンバータの多くを持っています... – wimvds

+0

私はLinuxを使用しているが、オフィスファイルに使用する任意のコンバータは100%の変換率を与えることはありません...あなたのドキュメントが、アプリケーションから使用される追加の機能を持たないプレーンテキストでない限り、ほとんど問題はありません。 – Samnan

2

http://www.odtphp.com/index.php?i=tutorials&p=tutorial1

または

odtphp

のいずれかを使用して、一つのフォーマットへのファイルの一括変換を行いますPyODConverter(それPHPのと仕事 "にするPHPのコマンドライン実行可能なツールを使用して、これを実行します)http://www.oooninja.com/2008/02/batch-command-line-file-conversion-with.html

その後、汎用pdf2txtライブラリまたはphpOCRを通してその最終結果を実行します。

2

まず、あなたの文書をプレーンテキストに変換してからプレーンテキスト版の内容を解析してあなたは欲しい。さまざまなコマンドラインコンバータがあり、さまざまなフォーマットからプレーンテキスト(Word to txtPDF to txtなど)に任意のオペレーティングシステムで変換できます。

BTW PDFについて:実際にはプレーンテキストが含まれているわけではありません。スキャンされた画像のコレクションにすぎないので、その場合OCRを使用しない限り、不運になります。

1

OpenTBSは、OpenDocumentファイル(ODT、ODS、ODG、ODF、ODM、ODP、OTT、OTS、OTG、OTP)の内容を読むことができるPHPツールです。しかし、OpenXMLファイル(DOCX、XLSX、PPTX)もあります。

サポートされていない形式のファイルをOpenTBSでサポートされているものに変換することができれば、それは完了です。

関連する問題