TikaでURLからテキストを抽出することはできますか?すべてのリンクが評価されます。またはTIKAは、pdf、単語およびその他のメディア文書でのみ使用できますか?TIKAを使用してURLからテキストを抽出
5
A
答えて
5
これはlucidからである:
InputStream input = new FileInputStream(new File(resourceLocation));
ContentHandler textHandler = new BodyContentHandler();
Metadata metadata = new Metadata();
PDFParser parser = new PDFParser();
parser.parse(input, textHandler, metadata);
input.close();
out.println("Title: " + metadata.get("title"));
out.println("Author: " + metadata.get("Author"));
out.println("content: " + textHandler.toString());
代わりにあなたは自動的にファイルの差分タイプを処理するためティカのAutoDetectParser
を使用することができますPDFParser
作成する:
Parser parser = new AutoDetectParser();
6
documentationを確認してください。可能です。
例
java -jar tika-app-0.9.jar -t http://stackoverflow.com/questions/6656849/extract-the-text-from-url-using-tika
はあなたにこのページ上のテキストが表示されます。
1
URLからではないローカルファイルからコンテンツを抽出するためにこのコードを使用してください:
byte[] raw = content.getContent();
ContentHandler handler = new BodyContentHandler();
Metadata metadata = new Metadata();
Parser parser = new AutoDetectParser();
parser.parse(new ByteArrayInputStream(raw), handler, metadata, new ParseContext());
LOG.info("content: " + handler.toString());
+0
また、TikaInputStream.get(byte [])を使用してInputStreamを構築する – Gagravarr
+0
ありがとう、私はなぜそれが私に空の文字列を与えているのか分からないhandler.toString() !!! –
3
はい、あなたはそれを行うことができます。ここにコードがあります。このコードは、Apache http client
HttpGet httpget = new HttpGet("http://url.here");
HttpEntity entity = null;
HttpClient client = new DefaultHttpClient();
HttpResponse response = client.execute(httpget);
entity = response.getEntity();
if (entity != null) {
InputStream instream = entity.getContent();
BodyContentHandler handler = new BodyContentHandler();
Metadata metadata = new Metadata();
Parser parser = new AutoDetectParser();
parser.parse(instream, handler, metadata, new ParseContext());
String plainText = handler.toString();
FileWriter writer = new FileWriter("/scratch/cache/output.txt");
writer.write(plainText);
writer.close();
System.out.println("done");
}
関連する問題
- 1. TIKAを使用してURLのコンテンツ(テキスト)を抽出する
- 2. TIKAを使用してテキストを抽出できません
- 3. Nginxを使用してURLからテキストを抽出する
- 4. tikaを使用してpdfファイルからテキストコンテンツを抽出できません
- 5. RDFとしてTikaを使用したメタデータの抽出
- 6. Rを使用して検索結果のURLからテキストを抽出する
- 7. pptからコンテンツを抽出するtikaの使い方は?
- 8. jqueryを使用してhtmlからテキストを抽出します
- 9. URLだけを使用してウェブページからタイトルを抽出
- 10. Pythonを使用してhtmlからテキストを抽出
- 11. テンプレートを使用してテキストからデータを抽出する
- 12. BeautifulSoupを使用してウェブサイトからテキストを抽出する
- 13. Pythonを使用してJavascriptからテキストを抽出する
- 14. PHPを使用してPDFからテキストを抽出する
- 15. TesseractOCRConfig Apache Tikaを使用してスキャンしたpdfを抽出できません
- 16. コンテンツの抽出方法。 PSTのファイルを使用してApacheのtika?
- 17. Apache Metadataクラスを使用してApache Tikaを使用して「件名」フィールドを抽出する方法
- 18. reを使用してテキストから電話番号を抽出しますか?
- 19. JavaScriptを使用した文字列からのURLの抽出
- 20. JBoss Richfacesを使用したPDFからのテキストの抽出
- 21. Java - OCRを使用したPDFからのテキストの抽出
- 22. Pythonを使用した階層テキストからのデータ抽出
- 23. NLTKを使用してテキストから引用を抽出するには
- 24. テキストファイルからURLを抽出し、Powershellを使用して解析します。
- 25. URLからuuidを抽出
- 26. テキストからURLを抽出し、辞書を使用してフリーテキストでfacebook.comに翻訳する
- 27. iTextを使用したPDFテキスト抽出
- 28. Apache Tikaを使用したヘッダーとフッターの抽出をスキップする方法
- 29. Pythonを使用してhrefから完全なURLを抽出します
- 30. Javascriptを使用してHTMLコードから画像URLを抽出します。
を使用していますそして、私は.. Javaコードでこれを使用して、テキストファイル内のURLからテキストを保存する必要がある場合、それも可能です。.. ??私はmavenを使用していません。私はjavaコードでこれを使用したいと考えています。 – ferhan
antとtikaを使用する方法は、Mavenでの使用方法の説明の下、コマンドラインツールの指示の直上です。それを埋め込む方法についていくつかのインスピレーションが必要な場合は、ウェブサイトの情報があると確信しています。また、コマンドラインツールのソースも常にあります。 – fvu
これはドキュメントの良い例になります... – topchef