TIKAを使用してURLからテキストを抽出

TikaでURLからテキストを抽出することはできますか？すべてのリンクが評価されます。またはTIKAは、pdf、単語およびその他のメディア文書でのみ使用できますか？TIKAを使用してURLからテキストを抽出

2011-07-11 ferhan

これはlucidからである：

InputStream input = new FileInputStream(new File(resourceLocation)); 
ContentHandler textHandler = new BodyContentHandler(); 
Metadata metadata = new Metadata(); 
PDFParser parser = new PDFParser(); 
parser.parse(input, textHandler, metadata); 
input.close(); 
out.println("Title: " + metadata.get("title")); 
out.println("Author: " + metadata.get("Author")); 
out.println("content: " + textHandler.toString());

代わりにあなたは自動的にファイルの差分タイプを処理するためティカのAutoDetectParserを使用することができますPDFParser作成する：

Parser parser = new AutoDetectParser();

出典

2011-08-23 19:54:56 surajz

documentationを確認してください。可能です。

例

java -jar tika-app-0.9.jar -t http://stackoverflow.com/questions/6656849/extract-the-text-from-url-using-tika

はあなたにこのページ上のテキストが表示されます。

出典

2011-07-11 21:40:16 fvu

を使用していますそして、私は.. Javaコードでこれを使用して、テキストファイル内のURLからテキストを保存する必要がある場合、それも可能です。.. ??私はmavenを使用していません。私はjavaコードでこれを使用したいと考えています。 – ferhan

antとtikaを使用する方法は、Mavenでの使用方法の説明の下、コマンドラインツールの指示の直上です。それを埋め込む方法についていくつかのインスピレーションが必要な場合は、ウェブサイトの情報があると確信しています。また、コマンドラインツールのソースも常にあります。 – fvu

これはドキュメントの良い例になります... – topchef

URLからではないローカルファイルからコンテンツを抽出するためにこのコードを使用してください：

byte[] raw = content.getContent(); 
    ContentHandler handler = new BodyContentHandler(); 
    Metadata metadata = new Metadata(); 
    Parser parser = new AutoDetectParser(); 
    parser.parse(new ByteArrayInputStream(raw), handler, metadata, new ParseContext()); 
    LOG.info("content: " + handler.toString());

出典

2012-02-14 06:52:53

また、TikaInputStream.get（byte []）を使用してInputStreamを構築する – Gagravarr

ありがとう、私はなぜそれが私に空の文字列を与えているのか分からないhandler.toString（） !!! –

はい、あなたはそれを行うことができます。ここにコードがあります。このコードは、Apache http client

HttpGet httpget = new HttpGet("http://url.here"); 
    HttpEntity entity = null; 
    HttpClient client = new DefaultHttpClient(); 
    HttpResponse response = client.execute(httpget); 
    entity = response.getEntity(); 
    if (entity != null) { 
     InputStream instream = entity.getContent(); 
     BodyContentHandler handler = new BodyContentHandler(); 
     Metadata metadata = new Metadata(); 
     Parser parser = new AutoDetectParser(); 
     parser.parse(instream, handler, metadata, new ParseContext()); 
     String plainText = handler.toString(); 
     FileWriter writer = new FileWriter("/scratch/cache/output.txt"); 
     writer.write(plainText); 
     writer.close(); 
     System.out.println("done"); 
    }

出典

2012-03-25 20:40:47 jeremyvillalobos

TIKAを使用してURLからテキストを抽出

答えて

関連する問題