2017-04-20 13 views
0

私はApache Tikaを使用して、さまざまなドキュメント形式のテキストを抽出しています。今私はヘッダー、フッターとテキストボックスを別々に扱うようにしたい。だから私はGitHubからTikaのソースコードをダウンロードし、それを変更しようとしています。EclipseからTikaソースコードを実行してください。

EclipseからApache Tikaのソースコードを実行し、入力文書を渡してその実行をデバッグします。どうやってやるの?非常に多くのメインクラスがあります。どこから始めますか?私はそのMavenプロジェクトを理解しており、私はそれを初めて使っています。

そして、一度私は新しいjarファイルを作成する方法を変更しますか?

+1

[Mavenドキュメント](http://maven.apache.org/guides/)から始めてEclipse Mavenチュートリアルを見つけてください – spacepickle

答えて

1

最初にTikaのxhtml出力を見てください。ヘッダー/フッターを抽出し、パーサーAPIを使用してこれらの部分を自由に処理できます。それがそのような場合は、APIにexamplesというカスタムSAXのようなハンドラを渡すと言ってください。

+0

はい、ヘッダー/フッターを抽出していますが、テキストが実際にはヘッダー/フッターから。ですから、私はTikaのソースコードを掘り下げてヘッダー/フッターのテキストの周りにカスタムタグを追加したかったのです。 –

関連する問題