これらのドキュメントの整合性を確認する手順は何ですか? doc,docx,docm,odt,rtf,pdf,odf,odp,xls,xlsx,xlsm,ppt,pptm
ドキュメントの整合性の確認
または少なくともそれらのいくつか。通常はコンテンツリポジトリにアップロードされます。
InputStreamは常に99,99%がMultiPartのHTTPリクエストから正しく読み込まれていると思います。そうしないと例外がスローされ、処理が行われます。しかし、ユーザーは既に破損したファイルをアップロードすることができます - 私はそれを確認するためにサードパーティのライブラリを使用していますか? odftoolkit、itextpdf、pdfbox、apache poi、tikaのようなものは見当たりませんでした。
あなたが探している汚職のどのような?熟考?事故?シングルバイトが壊れていますか?ファイルは切り捨てられますか? 「そのファイルがちょっと見える」と言うだけで十分ですか、Office 2003ビルド12345またはOffice 2008 for Macビルド4321で警告なしで開いていると言うファイルを受け入れる必要がありますか? – Gagravarr
私はちょうどTikaExceptionを処理する方法を疑問に思っていました。なぜなら、解析はあなたがおそらくこの問題をキャッチするポイントだからですが、ほとんどの場合、解析中にどのような問題が起きるか分かります。この場合、何が行われるべきですか?私は本当にドキュメントの配信を担当しています。コンテンツリポジトリにファイルを保存するのとは異なります。ドキュメント処理に関する以前の経験はありません。いくつか番号を付けることができますか?確率?統計? – lisak