2

私は理論的な質問があります。私はさまざまな形式の文書(ODS、MS office、pdf、html)を持っていますが、文書管理システムではなく、(多言語の)文書のメタデータとデータを保持するシステムであるECMシステムを実装したいと思います。 (xhtml)をファイルシステムとデータベース(メタデータのみ)に変換し、データ処理(索引付け、検索)を行います。次のECM技術を利用する方法 - 比較

どの技術を使用し、どのように進めますか?これらは私のオプションは以下のとおりです。Apacheのみティカを使用して

- これらの文書を解析し、XHTML形式にメタデータとデータを抽出して、インデックスとフルテキストのためのLuceneやSolrのを使用します(大きな欠点は、データベースの永続性である - メタデータは、多くの異なる)

TikaでApache Solrのみを使用していますparsers - 私はそれを経験していません。 Apache Nutchのようなデータベース統合をサポートしていますか?すでにApacheのティカ(屋外、apacheのJackrabbitの)を使用しているいくつかのCMSを使用したフード

の下で何が起こっているのを確認することは非常に難しい - -

は、その後のApache UIMAプロジェクトがあるしかし、私はあまり持っていません彼らとの経験。とにかく、Apache Tika自身が処理していないような問題(doc vs docxや、さまざまなメタデータの種類)をすでに処理していることは確かです。

Apache Tikaからxhtml形式を入手した後で、eXist DBのようなネイティブXMLデータベースを使用することもできますが、これらの文書の構造がフラットなので、良い選択であるとは確信できません。 XMLデータベースは、より階層的な文書永続化のためのものです。

答えて

0

「すぐに使える」ソリューションが必要な場合は、Camelのような統合フレームワークを使用し、ファイルからエンティティを抽出して(japanを使用して)エンティティをjdbcを介してデータベースに移行するラクダルートを確立することを検討できます。さもなければ、生のソースデータから始まり、抽出されたエンティティで終わる典型的なデータマイニングタスクのように思えます。

関連する問題