次のECM技術を利用する方法 - 比較

私は理論的な質問があります。私はさまざまな形式の文書（ODS、MS office、pdf、html）を持っていますが、文書管理システムではなく、（多言語の）文書のメタデータとデータを保持するシステムであるECMシステムを実装したいと思います。（xhtml）をファイルシステムとデータベース（メタデータのみ）に変換し、データ処理（索引付け、検索）を行います。次のECM技術を利用する方法 - 比較

どの技術を使用し、どのように進めますか？これらは私のオプションは以下のとおりです。Apacheのみティカを使用して

- これらの文書を解析し、XHTML形式にメタデータとデータを抽出して、インデックスとフルテキストのためのLuceneやSolrのを使用します（大きな欠点は、データベースの永続性である - メタデータは、多くの異なる）

TikaでApache Solrのみを使用していますparsers - 私はそれを経験していません。 Apache Nutchのようなデータベース統合をサポートしていますか？すでにApacheのティカ（屋外、apacheのJackrabbitの）を使用しているいくつかのCMSを使用したフード

の下で何が起こっているのを確認することは非常に難しい - -

は、その後のApache UIMAプロジェクトがあるしかし、私はあまり持っていません彼らとの経験。とにかく、Apache Tika自身が処理していないような問題（doc vs docxや、さまざまなメタデータの種類）をすでに処理していることは確かです。

Apache Tikaからxhtml形式を入手した後で、eXist DBのようなネイティブXMLデータベースを使用することもできますが、これらの文書の構造がフラットなので、良い選択であるとは確信できません。 XMLデータベースは、より階層的な文書永続化のためのものです。

出典

2011-02-27 lisak

「すぐに使える」ソリューションが必要な場合は、Camelのような統合フレームワークを使用し、ファイルからエンティティを抽出して（japanを使用して）エンティティをjdbcを介してデータベースに移行するラクダルートを確立することを検討できます。さもなければ、生のソースデータから始まり、抽出されたエンティティで終わる典型的なデータマイニングタスクのように思えます。

出典

2011-05-05 03:18:11 Brian

次のECM技術を利用する方法 - 比較

答えて

関連する問題