MarkMail.orgでは、外部の「ヘッドレス」OpenOffice.orgプロセスを使用して、各Officeファイル形式をPDFに「印刷」します。次に、PDF2Imageを使用して、各ページから画像とサムネイルを生成します。このステップに問題がある場合は、ImageMagickを使用している可能性がありますが、PDF2Imageほど堅牢ではないことがわかりました。
MarkLogicの内部xdmp:pdf-convert
を使用して、PDFの各ページのテキストをキャプチャします。抽出されたテキストを電子メールメッセージ文書に埋め込み、さまざまなバイナリへのURIと共に検索可能にします。
私たちはプロセスを駆動するためにJavaローダーを使用します(そして、かなり複雑なJavaクラスを使用してOpenOffice.orgを駆動します)。私たちは、OpenOffice.orgが時々立ち往生することに気付きました。そのため、外部の監視プロセスもあり、その時にOOoが起きます。 OpenOffice.orgメーリングリストの読み込みは、「添付ファイルがOpenOffice.orgに大きな問題を引き起こしている」と書いている人が多いため、特に挑戦しました。うん
私たちはCPFを使用しませんでした。すべての電子メールは同じJavaパイプライン経由でロードされるため、必要はありません。
私たちが学んだことは興味深い:今はJavaローダーがファイルをOpenOffice.orgに「プッシュ」して変換します。より良い方法は、まずメールをロードしてから、処理が必要なOfficeファイルを持つ新しいメールをクライアントが処理するようにします。プルモデルは、OpenOffice.orgがいつも利用可能であることをあまり重要視していないでしょう。また、OpenOffice.orgをアップグレードした後など、パイプラインを改善した後、過去の処理を再開することも容易になりました。
私たちはシステムに非常に満足しています。これがあなたを助けることを願ってください。
ありがとうございます..私はpdfに変換するのと同じ仕組みを使っていますが、PPTとExcelの場合は正しく動作していないことに気付きました。フォーマットが間違っていて、 ..あなたは同じことに遭遇しましたか? xdmp:pdf-covertは、ページ番号を保持します。テキストが抽出されるときなど。 – Ravi
あなたは、OpenOffice.orgが正しいことをしていないと言っていますか?私たちはうまくいっていますが、おそらくあなたの問題はpptxとxlsxファイルです.Opto 3.xで追加されたので、試したことはありませんでした。あなたがプロセスを動かすためにJavaファイルが必要だと思うなら、私と同じハンドルで私にメッセージを送ってください。 pdf-convertはページ番号を保持することができます。問題があり、サンプルコードが必要な場合は、私にメッセージしてください。 – hunterhacker