2017-04-15 15 views
-2

私はs3バケットからファイルを読み込むJavaプログラムを作成しています。私のコードは以下の通りです。S3バケットからPDFファイルを読む

AmazonS3 client = new AmazonS3Client(myCredentials); 
     S3Object xFile = client.getObject("myBucket", "myFile.txt"); 
     InputStream contents = xFile.getObjectContent(); 
     BufferedReader br = new BufferedReader(new InputStreamReader(contents)); 
     while (true) { 
      String line = br.readLine(); 
      if (line == null) 
       break; 

      System.out.println(" " + line); 
     } 
     System.out.println(); 

これは問題なく動作します。すなわち、データを正しく表示する。

同様に、以下のように変更してs3 BucketからPDFコンテンツを読み込もうとしています。

S3Object xFile = client.getObject("myBucket", "myFile.pdf"); 

このプログラムを実行すると、スクランブルされたテキストが印刷されます。

私はPDfboxを使うのが一般的ですが、これはすばらしいですが、ここではs3オブジェクトから読みたいと思います。私はs3ファイルのURLからそれを読み取ってPDFboxに渡すことができることを知っていますが、そのアプローチは私にとってはうまくいかないでしょう。

どうすればいいのか教えてください。

おかげ

+2

「スクランブルテキスト」はPDFの内容です。 PDFファイルはプレーンテキストではないので、生のPDFデータをそのまま画面に出力することはできません。 PDFファイルを処理できるライブラリを使用する必要があります。あなたは "S3オブジェクトから読み込む"ことに焦点を当てているようですが、S3オブジェクトの内容を既に 'InputStream'に変換して、' InputStream'を 'Reader'でラップしています。 'InputStream'や' Reader'からPDF文書を読む方法を理解するだけです。私はPDFBoxがそれをサポートしていないと驚くだろう。 –

+0

"pdfを読むには私はPDfboxを使っていますが、このwoks fantasticですが、ここで私はs3オブジェクトからそれを読んでいます" - あなたが投稿したコードはPDFBoxを全く使わないので、何を期待しましたか?そして、はい、PDFはバイナリ形式です。ここにはPDFBoxを使って画像に変換する方法やテキストを抽出する方法の例がたくさんあります。 –

答えて

1

PDFはバイナリ形式です。別のプログラムを通過させずにプレーンテキストを取得することはありません。

+0

なぜこれがダウン表示されていますか? PDF *はバイナリ形式で、印刷するとゴミが出るでしょう。あなたはPDFboxがあなたのために「うまくいかない」と言っていますが、あなたがしようとしていることは不明です。 – l0b0

関連する問題