apache-tika

    0

    2答えて

    私はこれを通過しましたslide。私はこのアプローチを理解するのがほとんど難しくない。 私の2つのクエリは、次のとおりです。 どうSolrは(そのようなどの名前、スキル、教育など)semi-structured document のような履歴書 のスキーマがApache TIKA PDFファイルからセクション賢明な情報を抽出することができます維持していますか?すべてのレジュームには異なるセクション

    1

    1答えて

    私はTikaを使用する単純なJavaプログラムをコンパイルしようとしています。 私は、プログラムの中で、次があります:私は私のWindows 7 PCへhereからティカをダウンロードした import java.io.File; import java.io.FileInputStream; import java.io.IOException; import org.apache.ti

    0

    1答えて

    私はJava、Maven、Tika、Eclipseを使い慣れています。私はティカを試してみたいです。私が見る限り、私はTikaをMavenの依存関係として設定しました。私は私のプロジェクトのpom.xmlにこれを追加しました: <dependency> <groupId>org.apache.tika</groupId> <artifactId>tika-parsers</ar

    1

    1答えて

    ドキュメントの分析に関する質問があります。 Apache Tikaでは、さまざまなタイプの異なるファイルのコンテンツとメタデータを作成できます。 Tikaでファイルのキーワードを取得することは可能ですか、それでもLuceneが必要ですか?

    0

    1答えて

    GithubのリポジトリからTikaをインストールし、スキャンしたドキュメントページを含むPDFをOCRしようとしました。 WARNING:たTesseract OCRがインストールされていると自動的に「あなた ない限り、画像ファイルに適用されます、私はたTesseractがインストールされ、利用されていることを事前に確認を得たものの、メタデータのみが(抽出します java -cp tika-ap

    1

    1答えて

    tikaの例をで検索しようとしています。spring DSLを使用しています。 私はtikaコネクタが利用できますが、spring DSLを使用した例はありません。私はhttps://github.com/apache/camel/tree/master/examples#examplesのリンクを含むすべての場所を見ましたが、これまでの運はありません。 私はそれに助けてください。例として使用する

    0

    1答えて

    Apache Tika(1.4以降)には、org.apache.tika.mime.MimeTypeとorg.apache.tika.mime.MediaTypeという2つのカルセがあります。彼らはどちらも似たようなものを表し、同様の作業を解決するようです。 私はこれらのクラスの目的は何であり、どんな場合に使うべきなのだろうか? 私は現在、イメージを読み込むためのmime-typeとファイル拡張子

    0

    1答えて

    私はtikaを使ってpptファイルを抽出します。これはプレーンテキストのみです。しかし、tikaがコンテンツタイプを与えるという結果はjpg形式です!プレーンテキストタイプとして検出されます。

    2

    1答えて

    AC3オーディオファイルを入力として提供し、InputStreamをフェッチしてApache Tikaに渡します。 ライブラリでは、audio/ac3がMIMEタイプのXMLでリストされていますが、タイプの識別に失敗します。それは、他の標準的なメディアタイプとうまく動作します。 誰でもこの問題を解決する方法を知っています。 Metadata metadata = new Metadata();