2016-11-20 10 views
1

MarkLogicが添付ファイル用のMarkmailソフトウェアで添付ファイルのプレビュー画像を生成するために使用するソフトウェアを誰も共有できますか?それはオフィス文書でもうまくやっているようです。私はOpenOfficeを使ってPDFに変換し、PDFの各ページの画像を生成しようとしましたが、変換はドキュメントに埋め込まれた画像ではうまくいきませんでした。MarkMail preview

ドキュメント(すべてのタイプまたは最も使用されているタイプ)を個々のページ(存在する場合)のイメージに変換するCPFタスクを作成しようとしています。特にExcelやPPTのOfficeドキュメントは面倒です。私はまた、文書から抽出されたテキストをページnos ..とタイトル、ヘッダー、フッターなどのような他のものを保持したいので、スニペットを行うときに、これらのタグを使用して強調表示します:))。

ご意見は本当に役に立ちます。

答えて

3

MarkMail.orgでは、外部の「ヘッドレス」OpenOffice.orgプロセスを使用して、各Officeファイル形式をPDFに「印刷」します。次に、PDF2Imageを使用して、各ページから画像とサムネイルを生成します。このステップに問題がある場合は、ImageMagickを使用している可能性がありますが、PDF2Imageほど堅牢ではないことがわかりました。

MarkLogicの内部xdmp:pdf-convertを使用して、PDFの各ページのテキストをキャプチャします。抽出されたテキストを電子メールメッセージ文書に埋め込み、さまざまなバイナリへのURIと共に検索可能にします。

私たちはプロセスを駆動するためにJavaローダーを使用します(そして、かなり複雑なJavaクラスを使用してOpenOffice.orgを駆動します)。私たちは、OpenOffice.orgが時々立ち往生することに気付きました。そのため、外部の監視プロセスもあり、その時にOOoが起きます。 OpenOffice.orgメーリングリストの読み込みは、「添付ファイルがOpenOffice.orgに大きな問題を引き起こしている」と書いている人が多いため、特に挑戦しました。うん

私たちはCPFを使用しませんでした。すべての電子メールは同じJavaパイプライン経由でロードされるため、必要はありません。

私たちが学んだことは興味深い:今はJavaローダーがファイルをOpenOffice.orgに「プッシュ」して変換します。より良い方法は、まずメールをロードしてから、処理が必要なOfficeファイルを持つ新しいメールをクライアントが処理するようにします。プルモデルは、OpenOffice.orgがいつも利用可能であることをあまり重要視していないでしょう。また、OpenOffice.orgをアップグレードした後など、パイプラインを改善した後、過去の処理を再開することも容易になりました。

私たちはシステムに非常に満足しています。これがあなたを助けることを願ってください。

+0

ありがとうございます..私はpdfに変換するのと同じ仕組みを使っていますが、PPTとExcelの場合は正しく動作していないことに気付きました。フォーマットが間違っていて、 ..あなたは同じことに遭遇しましたか? xdmp:pdf-covertは、ページ番号を保持します。テキストが抽出されるときなど。 – Ravi

+0

あなたは、OpenOffice.orgが正しいことをしていないと言っていますか?私たちはうまくいっていますが、おそらくあなたの問題はpptxとxlsxファイルです.Opto 3.xで追加されたので、試したことはありませんでした。あなたがプロセスを動かすためにJavaファイルが必要だと思うなら、私と同じハンドルで私にメッセージを送ってください。 pdf-convertはページ番号を保持することができます。問題があり、サンプルコードが必要な場合は、私にメッセージしてください。 – hunterhacker