apache-tika

0熱

2答えて

私はこれを通過しましたslide。私はこのアプローチを理解するのがほとんど難しくない。私の2つのクエリは、次のとおりです。どうSolrは（そのようなどの名前、スキル、教育など）semi-structured document のような履歴書のスキーマがApache TIKA PDFファイルからセクション賢明な情報を抽出することができます維持していますか？すべてのレジュームには異なるセクション

1熱

1答えて

Apache Tikaライブラリを使用してJavaプログラムをコンパイルする - 依存関係

私はTikaを使用する単純なJavaプログラムをコンパイルしようとしています。私は、プログラムの中で、次があります：私は私のWindows 7 PCへhereからティカをダウンロードした import java.io.File; import java.io.FileInputStream; import java.io.IOException; import org.apache.ti

0熱

1答えて

Eclipseを使用した最初のテストのためにJavaでApache Tika（Maven Dependencyとして）を実行するにはどうすればよいですか？

私はJava、Maven、Tika、Eclipseを使い慣れています。私はティカを試してみたいです。私が見る限り、私はTikaをMavenの依存関係として設定しました。私は私のプロジェクトのpom.xmlにこれを追加しました： <dependency> <groupId>org.apache.tika</groupId> <artifactId>tika-parsers</ar

1熱

1答えて

Apache TikaとApache Lucene

ドキュメントの分析に関する質問があります。 Apache Tikaでは、さまざまなタイプの異なるファイルのコンテンツとメタデータを作成できます。 Tikaでファイルのキーワードを取得することは可能ですか、それでもLuceneが必要ですか？

0熱

1答えて

TikaはTesseractを検出しましたが、OCRを実行しません

GithubのリポジトリからTikaをインストールし、スキャンしたドキュメントページを含むPDFをOCRしようとしました。 WARNING：たTesseract OCRがインストールされていると自動的に「あなたない限り、画像ファイルに適用されます、私はたTesseractがインストールされ、利用されていることを事前に確認を得たものの、メタデータのみが（抽出します java -cp tika-ap

1熱

1答えて

tikaを使用しているApache camel

tikaの例をで検索しようとしています。spring DSLを使用しています。私はtikaコネクタが利用できますが、spring DSLを使用した例はありません。私はhttps://github.com/apache/camel/tree/master/examples#examplesのリンクを含むすべての場所を見ましたが、これまでの運はありません。私はそれに助けてください。例として使用する

0熱

1答えて

Apache TikaのMediaTypeクラスとMimeTypeクラスの違いは何ですか？

Apache Tika（1.4以降）には、org.apache.tika.mime.MimeTypeとorg.apache.tika.mime.MediaTypeという2つのカルセがあります。彼らはどちらも似たようなものを表し、同様の作業を解決するようです。私はこれらのクラスの目的は何であり、どんな場合に使うべきなのだろうか？私は現在、イメージを読み込むためのmime-typeとファイル拡張子

0熱

1答えて

pptからコンテンツを抽出するtikaの使い方は？

私はtikaを使ってpptファイルを抽出します。これはプレーンテキストのみです。しかし、tikaがコンテンツタイプを与えるという結果はjpg形式です！プレーンテキストタイプとして検出されます。

2熱

1答えて

Apache Tikaは、AC3ファイルをアプリケーション/オクテットストリームとして解析し、オーディオ/ ac3ではない

AC3オーディオファイルを入力として提供し、InputStreamをフェッチしてApache Tikaに渡します。ライブラリでは、audio/ac3がMIMEタイプのXMLでリストされていますが、タイプの識別に失敗します。それは、他の標準的なメディアタイプとうまく動作します。誰でもこの問題を解決する方法を知っています。 Metadata metadata = new Metadata();